ES插入數據詳解

ES（Elasticsearch）是一個分布式的全文搜索引擎，它可以幫助我們快速地存儲、搜索和分析海量數據。在ES中，插入數據是我們使用ES的一個基本功能。本文將基於此，從多個方面對ES插入數據進行詳細闡述。

一、ES插入數據帶版本號

在ES中，我們通常會對數據進行版本管理，以便於在數據發生變化時能夠及時更新。因此，我們可以利用ES提供的api，在插入數據時加入版本號。代碼示例如下：

curl -XPUT 'http://localhost:9200/index/type/1?version=1' -d '{"name":"John","age":22}'

在這個例子中，我們使用curl命令向ES中插入數據，其中version=1表示版本號為1。如果我們在插入數據時版本號錯誤，那麼ES將會返回錯誤信息。

值得注意的是，如果省略版本號，ES將默認將版本號設置為1。

二、ES手動插入數據

除了使用API插入數據外，我們還可以通過手動插入數據的方式，向ES中插入數據。下面是一段使用Python語言手動向ES中插入數據的代碼示例：

from elasticsearch import Elasticsearch

es = Elasticsearch(hosts="localhost", port=9200)

# 插入一條數據
doc = {"name": "John", "age": 22}
es.index(index="index", doc_type="type", id=1, body=doc)

在這個代碼示例中，我們首先建立一個ES的連接（這裡我們使用了Python中的elasticsearch庫）；然後通過index方法向ES中插入數據，其中index表示索引名稱，type表示類型，id表示數據的唯一標識符，body表示數據的內容。通過這種方式，我們可以非常靈活地向ES中插入數據。

三、SQL插入CLOB數據

有時候我們需要向ES中插入較大的數據，比如一份大型文檔或一整個網頁。而在ES中，我們可以使用BLOB或CLOB類型的字段來存儲這些大型數據。下面是一個使用SQL語句向ES中插入CLOB類型數據的示例：

INSERT INTO es_test VALUES(1, EMPTY_CLOB());
SELECT clob_column FROM es_test WHERE id = 1 FOR UPDATE;
CALL dbms_lob.writeappend(clob_column, length(data), data);

在這個例子中，我們首先插入一條數據，其中id為1，clob_column為CLOB類型字段，初始值為空；然後通過SELECT語句查詢這條數據，並使用dbms_lob.writeappend方法將數據寫入CLOB類型字段中。

四、ES寫入數據

ES提供了多種方式來向ES中寫入數據，其中包括bulk、index、create等。下面是一個使用bulk方式向ES中寫入數據的代碼示例：

from elasticsearch import Elasticsearch

es = Elasticsearch(hosts="localhost", port=9200)

# 插入多條數據
docs = [
    {"name": "John", "age": 22},
    {"name": "Tom", "age": 24},
    {"name": "Mary", "age": 20},
]

actions = [
    {"_index": "index", "_type": "type", "_id": i, "_source": doc} for i, doc in enumerate(docs)
]

es.bulk(actions)

在這個代碼示例中，我們首先建立一個ES的連接；然後定義多個數據文檔，並將它們存儲到一個列表中；接着通過bulk方法向ES中插入數據，其中actions參數為一個列表，每個元素表示一條插入數據的操作指令（包括索引名稱、類型、唯一標識符和數據內容）。通過這種方式，我們可以批量地向ES中插入數據，從而提高插入數據的效率。

五、ES數據導入

有時候我們需要從其他數據源中導入數據到ES中，比如從數據庫、文件或其他搜索引擎中導入。ES提供了多種數據導入方式，其中包括使用Logstash、使用ES的API、使用ES的Java API等。下面是一個使用Logstash導入數據到ES的示例：

input {
  jdbc {
    jdbc_driver_library => "/path/to/mysql.jar"
    jdbc_driver_class => "com.mysql.jdbc.Driver"
    jdbc_connection_string => "jdbc:mysql://localhost/test"
    jdbc_user => "user"
    jdbc_password => "password"
    statement => "SELECT * FROM users WHERE id > :last_id ORDER BY id ASC"
    use_column_value => true
    tracking_column => "id"
  }
}

output {
  elasticsearch {
    hosts => ["localhost:9200"]
    index => "users"
    document_type => "user"
    document_id => "%{id}"
  }
}

在這個例子中，我們首先配置Logstash，使其能夠連接MySQL數據庫，並從中讀取數據；然後將數據導入到ES中，其中hosts表示ES的地址、index表示要導入到的索引名稱、document_type表示用於區分不同類型數據的類型名稱、document_id表示數據的唯一標識符。

六、Oracle插入列數據選取

如果我們需要將Oracle數據庫中的列數據選取出來，然後插入到ES中，我們可以使用Python的Oracle驅動和elasticsearch庫來實現。下面是一個使用Python將Oracle數據插入到ES的示例：

import cx_Oracle
from elasticsearch import Elasticsearch

es = Elasticsearch(hosts="localhost", port=9200)

# 獲取Oracle列數據
conn = cx_Oracle.connect("user/password@localhost:1521/orcl")
cursor = conn.cursor()
cursor.execute("SELECT name, age FROM users")
data = cursor.fetchall()

# 將數據插入到ES中
docs = [
    {"name": name, "age": age} for name, age in data
]

actions = [
    {"_index": "index", "_type": "type", "_id": i, "_source": doc} for i, doc in enumerate(docs)
]

es.bulk(actions)

在這個代碼示例中，我們首先連接Oracle數據庫，查詢數據，並將數據存儲到一個列表中；然後將數據插入到ES中，使用的方式與上一個示例是相同的（使用bulk方法批量插入數據）。

總之，ES插入數據是我們在使用ES時必定會涉及到的一個基本操作。通過本文的講解，相信您對ES插入數據的相關知識已經更加了解，可以更加靈活地使用ES進行數據存儲、搜索和分析。

原創文章，作者：小藍，如若轉載，請註明出處：https://www.506064.com/zh-hant/n/183169.html