深入理解elasticsearch文檔

一、什麼是elasticsearch文檔

elasticsearch是一個分散式的搜索引擎，它將數據存儲為文檔，在搜索時會將文檔作為最基本的單位。elasticsearch文檔是一個JSON對象，它本身不保存在磁碟上，但是elasticsearch會將文檔序列化並將其存儲為Lucene索引。

一個典型的elasticsearch文檔包含以下屬性：

{
  "_index": "my_index",
  "_type": "my_type",
  "_id": "1",
  "_source": {
    "text": "this is my document"
  }
}

_index和_type表示文檔所在的索引和類型，_id是文檔的唯一標識符，_source是文檔的實際內容，它可以是任何合法的JSON對象。

二、elasticsearch文檔的CRUD操作

elasticsearch支持以下四個基本的CRUD操作。

1. Index操作

Index操作用於創建或更新文檔。如果指定ID已經存在，則會更新該ID的文檔；如果ID不存在，則會創建新的文檔。下面是一個示例：

PUT /my_index/_doc/1
{
    "text": "this is my updated document"
}

2. Get操作

Get操作用於根據ID獲取文檔的內容。下面是一個示例：

GET /my_index/_doc/1

3. Update操作

Update操作用於更新文檔的內容。下面是一個示例：

POST /my_index/_update/1
{
    "doc": {
        "text": "this is my updated document"
    }
}

4. Delete操作

Delete操作用於刪除文檔。下面是一個示例：

DELETE /my_index/_doc/1

三、如何搜索elasticsearch文檔

搜索是elasticsearch最核心的功能之一，它可以讓你基於各種條件和過濾器查詢文檔，支持全文本搜索、模糊搜索、短語搜索等。下面是一個示例：

GET /my_index/_search
{
    "query": {
        "match": {
            "text": "my document"
        }
    }
}

這個請求將返回所有包含”my”和”document”這兩個詞的文檔。

四、elasticsearch文檔的分析

分析是elasticsearch中的一個重要概念，它指的是將文本數據轉換為可搜索的詞項。elasticsearch分析器由一個字元過濾器、一個或多個分詞器和一個或多個過濾器組成。下面是一個示例：

PUT /my_index
{
   "settings": {
      "analysis": {
         "analyzer": {
            "my_analyzer": {
               "type": "custom",
               "tokenizer": "standard",
               "filter": [
                  "lowercase",
                  "stop",
                  "stemmer"
               ]
            }
         },
         "filter": {
            "stemmer": {
               "type": "stemmer",
               "language": "english"
            }
         }
      }
   },
   "mappings": {
      "properties": {
         "text": {
            "type": "text",
            "analyzer": "my_analyzer"
         }
      }
   }
}

上面的示例定義了一個名為my_analyzer的分析器，它使用了標準分詞器、小寫過濾器、停詞過濾器和英語詞幹提取器。然後在文檔映射中指定了text欄位使用my_analyzer分析器進行分析。

五、elasticsearch文檔的聚合

聚合是elasticsearch的另一個重要概念，它可以讓你進行分組、過濾、統計等各種操作，最終返回聚合數據。下面是一個示例：

GET /my_index/_search
{
   "query": {
      "match_all": {}
   },
   "aggs": {
      "group_by_text": {
         "terms": {
            "field": "text"
         },
         "aggs": {
            "avg_length": {
               "avg": {
                  "field": "text_length"
               }
            }
         }
      }
   }
}

上面的示例將所有文檔按照text欄位進行分組，並計算每個分組的平均text_length。

六、elasticsearch文檔的備份和恢復

備份和恢復是任何資料庫都必須考慮的問題之一。在elasticsearch中，你可以通過以下兩種方式進行備份和恢復。

1. Snapshot API

Snapshot API可以備份和恢復整個elasticsearch集群。下面是一個示例：

PUT /_snapshot/my_backup
{
   "type": "fs",
   "settings": {
      "location": "/path/to/my/backup/folder"
   }
}

PUT /_snapshot/my_backup/snapshot_1?wait_for_completion=true

2. Reindex API

Reindex API可以將一個索引的所有文檔複製到另一個索引。下面是一個示例：

POST _reindex
{
  "source": {
    "index": "my_old_index"
  },
  "dest": {
    "index": "my_new_index"
  }
}

七、elasticsearch文檔的安全

在elasticsearch中，可以通過以下幾個方面來保證數據的安全性。

1. 用戶認證和授權

通過用戶名密碼認證和授權來限制對elasticsearch集群的訪問。下面是一個示例：

PUT /_security/user/my_user
{
  "password" : "mypassword",
  "roles" : [ "user_role" ]
}

2. HTTPS

通過HTTPS協議來加密數據傳輸，確保數據的安全。

3. 安全插件

通過安全插件來限制API的訪問和控制Kibana的訪問，從而保證數據的安全。下面是一個示例：

PUT /_cluster/settings
{
  "persistent": {
    "xpack": {
      "security": {
        "enabled": true
      }
    }
  }
}

八、總結

elasticsearch文檔是elasticsearch的最基本單位，它支持各種CRUD操作、搜索、分析和聚合等各種功能。為保證數據的安全性，elasticsearch提供了多種安全措施，如用戶認證、HTTPS和安全插件等。

原創文章，作者：BMAJK，如若轉載，請註明出處：https://www.506064.com/zh-tw/n/369589.html