sql創建索引的步驟「數據庫添加索引的作用」

應用背景:

1、當你的數據量過大,而你的索引最初創建的分片數量不足,導致數據入庫較慢的情況,此時需要擴大分片的數量,此時可以嘗試使用Reindex。

2、當數據的mapping需要修改,但是大量的數據已經導入到索引中了,重新導入數據到新的索引太耗時;但是在ES中,一個字段的mapping在定義並且導入數據之後是不能再修改的,

所以這種情況下也可以考慮嘗試使用Reindex。

Reindex:

ES提供了_reindex這個API。相對於我們重新導入數據肯定會快不少,實測速度大概是bulk導入數據的5-10倍。

數據遷移步驟:

1、創建新的索引(可以通過java程序也可以直接在head插件上創建)

注意:在創建索引的時候要把表結構也要創建好(也就是mapping)

2、複製數據

最簡單、基本的方式:

1)代碼請求:

POST_reindex
{
  "source": {
    "index":"old_index"
  },
  "dest": {
    "index":"new_index"
  }
}
 

2)利用命令:

curl _XPOST’ES數據庫請求地址:9200/_reindex’-d{“source”:{“index”:”old_index”},”dest”:{“index”:”new_index”}}

但如果新的index中有數據,並且可能發生衝突,那麼可以設置version_type”version_type”: “internal”或者不設置,則Elasticsearch強制性地將文檔轉儲到目標中,覆蓋具有相同類型和ID的任何內容:

POST_reindex
{
  "source": {
    "index":"old_index"
  },
  "dest": {
    "index":"new_index",
    "version_type":"internal"
  }
}

數據遷移效率

問題發現:

常規的如果我們只是進行少量的數據遷移利用普通的reindex就可以很好地達到要求,但是當我們發現我們需要遷移的數據量過大時,我們會發現reindex的速度會變得很慢

數據量幾十個G的場景下,elasticsearch reindex速度太慢,從舊索引到數據到新索引,當前最佳方案是什麼?

原因分析:

reindex的核心做跨索引、跨集群的數據遷移。

慢的原因及優化思路無非包括:

1)批量大小值可能太小。需要結合堆內存、線程池調整大小;

2)reindex的底層是scroll實現,藉助scroll並行優化方式,提升效率;

3)跨索引、跨集群的核心是寫入數據,考慮寫入優化角度提升效率。

可行方案:

1)提升批量寫入大小值

默認情況下,_reindex使用1000進行批量操作,您可以在source中調整batch_size。

POST_reindex
{
  "source": {
    "index":"source",
    "size": 5000
  },
  "dest": {
    "index":"dest",
    "routing":"=cat"
  }
}

批量大小設置的依據:

1、使用批量索引請求以獲得最佳性能。

批量大小取決於數據、分析和集群配置,但一個好的起點是每批處理5-15MB。

注意,這是物理大小。文檔數量不是度量批量大小的好指標。例如,如果每批索引1000個文檔:

1)每個1kb的1000個文檔是1mb。

2)每個100kb的1000個文檔是100MB。

這些是完全不同的體積大小。

2、逐步遞增文檔容量大小的方式調優。

1)從大約5-15MB的大容量開始,慢慢增加,直到你看不到性能的提升。然後開始增加批量寫入的並發性(多線程等等)。

2)使用kibana、cerebro或iostat、top和ps等工具監視節點,以查看資源何時開始出現瓶頸。如果您開始接收
EsRejectedExecutionException,您的集群就不能再跟上了:至少有一個資源達到了容量。

要麼減少並發性,或者提供更多有限的資源(例如從機械硬盤切換到ssd固態硬盤),要麼添加更多節點。

2)藉助scroll的sliced提升寫入效率

Reindex支持SlicedScroll以並行化重建索引過程。這種並行化可以提高效率,並提供一種方便的方法將請求分解為更小的部分。

sliced原理(frommedcl)

1)用過Scroll接口吧,很慢?如果你數據量很大,用Scroll遍曆數據那確實是接受不了,現在Scroll接口可以並發來進行數據遍歷了。

2)每個Scroll請求,可以分成多個Slice請求,可以理解為切片,各Slice獨立並行,利用Scroll重建或者遍歷要快很多倍。

slicing使用舉例

slicing的設定分為兩種方式:手動設置分片、自動設置分片。

手動設置分片參見官網。

自動設置分片如下:

POST_reindex?slices=5&refresh
{
  "source": {
    "index":"twitter"
  },
  "dest": {
    "index":"new_twitter"
  }
}

slices大小設置注意事項:

1)slices大小的設置可以手動指定,或者設置slices設置為auto,auto的含義是:針對單索引,slices大小=分片數;針對多索引,slices=分片的最小值。

2)當slices的數量等於索引中的分片數量時,查詢性能最高效。slices大小大於分片數,非但不會提升效率,反而會增加開銷。

3)如果這個slices數字很大(例如500),建議選擇一個較低的數字,因為過大的slices會影響性能。

效果

實踐證明,比默認設置reindex速度能提升10倍+。

原創文章,作者:投稿專員,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/273651.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
投稿專員的頭像投稿專員
上一篇 2024-12-17 14:07
下一篇 2024-12-17 14:07

相關推薦

發表回復

登錄後才能評論