Elasticsearch中文詳解

一、什麼是Elasticsearch

Elasticsearch是一個分散式的、開源的實時搜索和分析引擎。它被設計成一個支持多種數據源（如文本、數字、地理位置等）和多種查詢方式的實時、分散式搜索和分析引擎。

Elasticsearch的優點在於它具有良好的擴展性、高可用性和容錯性，可以處理數百萬億級別的數據。因此它被廣泛應用在全文搜索、日誌分析、知識圖譜、商業智能、檢索推薦等領域。

二、Elasticsearch中文搜索

Elasticsearch對中文的處理需要解決分詞的問題。一般來說，中文分詞是將一個句子或一篇文章拆分成一個個詞語，而這些詞語也可以是片語或者專有名詞。

Elasticsearch提供了中文分詞器，如IK Analyzer和Smartcn Analyzer。IK Analyzer包含兩種分詞演算法：一個是細粒度分詞，適用於搜索查詢；一個是智能分詞，適用於文本處理。

以下是使用IK Analyzer進行中文搜索的代碼示例：

PUT /chinese_test
{
    "settings": {
        "analysis": {
            "filter": {
                "my_stop": {
                    "type": "stop",
                    "stopwords": ["的", "這"]
                }
            },
            "analyzer": {
                "ik_smart_pinyin": {
                    "tokenizer": "ik_smart",
                    "filter": ["pinyin", "my_stop"]
                }
            }
        }
    },
    "mappings": {
        "properties": {
            "title": {
                "type": "text",
                "analyzer": "ik_smart_pinyin"
            }
        }
    }
}

POST /chinese_test/_doc
{
  "title": "我是中國人"
}

GET /chinese_test/_search
{
  "query": {
    "match": {
      "title": "zhongguoren"
    }
  }
}

三、Elasticsearch中文分析

中文分析需要注意的是，中文字元沒有空格，無法直接拆分成詞語。Elasticsearch提供了不同的分詞器來支持中文文本的分析。

除了IK Analyzer和Smartcn Analyzer，Elasticsearch還有其他一些常用的中文分詞器。比如jieba分詞器，它是一款開源的Python中文分詞器，可以直接集成到Elasticsearch中。

以下是使用jieba分詞器進行中文分析的代碼示例：

PUT /chinese_test
{
    "settings": {
        "analysis": {
            "filter": {
                "my_stop": {
                    "type": "stop",
                    "stopwords": ["的", "這"]
                }
            },
            "tokenizer": {
                "jieba_tokenizer": {
                    "type": "custom",
                    "tokenizer": "jieba",
                    "use_smart": true,
                    "user_dict": "userdict.txt"
                }
            },
            "analyzer": {
                "jieba_analyzer": {
                    "tokenizer": "jieba_tokenizer",
                    "filter": ["pinyin", "my_stop"]
                }
            }
        }
    },
    "mappings": {
        "properties": {
            "title": {
                "type": "text",
                "analyzer": "jieba_analyzer"
            }
        }
    }
}

POST /chinese_test/_doc
{
  "title": "我是中國人"
}

GET /chinese_test/_analyze
{
  "text": "我是中國人",
  "analyzer": "jieba_analyzer"
}

四、Elasticsearch中文可視化

為了更好地展示Elasticsearch中文分析的結果，我們可以使用Kibana，這是Elasticsearch官方提供的可視化工具。

在Kibana中，我們可以通過創建儀錶盤、可視化面板等方式來展示數據，同時也可以使用中文數據來創建可視化。

以下是使用Kibana進行Elasticsearch中文可視化的代碼示例：

POST /chinese_test/_doc
{
  "title": "良心互聯網"
}

GET /chinese_test/_search
{
  "query": {
    "match": {
      "title": "hulianwang"
    }
  }
}

GET /chinese_test/_search
{
  "query": {
    "match": {
      "title": "良心互聯網"
    }
  }
}

GET /_cat/indices?v

GET /_search
{
  "query": {
    "match": {
      "title": "中國"
    }
  }
}

五、Elasticsearch中文聚合

Elasticsearch中文聚合指的是對文檔進行分組並計算每個分組的統計信息。可以用來分析文檔中的數據分布等。

以下是使用Elasticsearch中文聚合的代碼示例：

GET /chinese_test/_search
{
  "size": 0, 
  "aggs" : {
    "group_by_title": {
      "terms": {
        "field": "title"
      }
    }
  }
}

六、總結

Elasticsearch是一款功能強大、高性能、高可用性和高擴展性的分散式搜索和分析引擎。針對中文的搜索和分析，Elasticsearch提供了多種分詞器、可視化工具和聚合方式，為處理中文數據提供了便利。

原創文章，作者：RDKWG，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/333374.html