ES多字段聚合使用詳解

在ES搜索中,聚合是一個非常重要的概念。通過ES聚合,我們可以快速地對搜索結果進行匯總統計,方便查詢分析。而在實際應用中,有時候需要對多個字段進行聚合,這時就需要使用到ES的多字段聚合。

一、使用多字段聚合進行分組統計

使用ES的多字段聚合進行分組統計是一個非常常見的需求。比如,在一個電商網站中,需要對商品進行分組統計,統計出每個品牌下每個分類的銷售數量以及銷售額。這時就需要使用到ES的多字段聚合。

{
  "aggs": {
    "brand_group": {
      "terms": {
        "field": "brand.keyword",
        "size": 10
      },
      "aggs": {
        "category_group": {
          "terms": {
            "field": "category.keyword",
            "size": 10
          },
          "aggs": {
            "sales_count": {
              "sum": {
                "field": "sales_count"
              }
            },
            "sales_sum_amount": {
              "sum": {
                "field": "sales_amount"
              }
            }
          }
        }
      }
    }
  }
}

上面的代碼中,首先使用了一個名為「brand_group」的聚合,根據「brand.keyword」字段進行聚合,並限制聚合結果返回的桶的數量為10個。在「brand_group」聚合下嵌套了一個名為「category_group」的聚合,根據「category.keyword」字段進行聚合,並同樣限制返回的桶數量為10個。

在「category_group」聚合下,有兩個子聚合「sales_count」和「sales_sum_amount」。這兩個子聚合分別聚合了「sales_count」和「sales_amount」字段,並對這兩個字段進行求和。這樣就能統計出每個品牌下每個分類的銷售數量以及銷售額。

二、使用多字段聚合進行統計排序

除了進行分組統計,還可以使用ES的多字段聚合進行統計排序。比如,在一個房產網站中,需要對房源進行統計排序,以便用戶更快地找到自己需要的房源。這時就可以使用ES的多字段聚合進行統計排序。

{
  "size": 10,
  "aggs": {
    "price_stat": {
      "stats": {
        "field": "price"
      }
    },
    "price_group": {
      "histogram": {
        "field": "price",
        "interval": 500
      },
      "aggs": {
        "area_group": {
          "terms": {
            "field": "area"
          },
          "aggs": {
            "price_avg": {
              "avg": {
                "field": "price"
              }
            }
          }
        }
      }
    },
    "price_ranges": {
      "range": {
        "field": "price",
        "ranges": [
          { "from": 0, "to": 500 },
          { "from": 500, "to": 1000 },
          { "from": 1000, "to": 2000 },
          { "from": 2000, "to": 5000 }
        ]
      }
    }
  }
}

上面的代碼中,首先使用了一個「stats」聚合,對「price」字段進行統計,得到該字段的最大值、最小值、平均值和總和。

在「price_group」聚合中,使用了一個「histogram」聚合對「price」字段進行切分,並在每個價位桶中再使用「terms」聚合按照「area」字段進行聚合。最終在每個桶下面還使用了一個「avg」聚合,對「price」字段求出了該桶內的平均價格。

最後一個聚合「price_ranges」使用了一個「range」聚合,將價格按照一定的區間進行歸納,並使用「from」和「to」字段指定了價格區間的範圍。這樣就可以方便地進行價格篩選,供用戶使用。

三、使用多字段聚合進行數據透視

除了分組統計和統計排序,ES的多字段聚合還可以進行數據透視。比如,在一個企業的訂單管理系統中,需要統計某個時間段內每個員工的銷售額,並按照部門進行分類,同時還需要統計每個員工的銷售額占該部門總銷售額的百分比。

{
  "aggs": {
    "dept_group": {
      "terms": {
        "field": "dept.keyword",
        "size": 10
      },
      "aggs": {
        "employee_group": {
          "terms": {
            "field": "employee.keyword",
            "size": 10
          },
          "aggs": {
            "sales_amount": {
              "sum": {
                "field": "sales_amount"
              }
            },
            "dept_sales_amount": {
              "sum": {
                "field": "sales_amount"
              },
              "partition": {
                "terms": {
                  "field": "dept.keyword",
                  "size": 10
                }
              }
            }
          }
        }
      }
    }
  }
}

上面的代碼中,首先使用了一個名為「dept_group」的聚合,根據「dept.keyword」字段進行聚合,並限制結果桶的數量為10個。在「dept_group」聚合下面嵌套了一個名為「employee_group」的聚合,根據「employee.keyword」字段進行聚合,並同樣限制結果桶數量為10個。

在「employee_group」聚合下,有兩個子聚合「sales_amount」和「dept_sales_amount」。其中,「sales_amount」聚合對「sales_amount」字段進行求和,統計每個員工的銷售額;「dept_sales_amount」聚合也對「sales_amount」字段進行求和,並增加了「partition」子聚合,對「dept.keyword」進行聚合,計算出每個部門的總銷售額。

通過這兩個聚合的組合,我們可以計算出每個員工的銷售額,以及他所在部門的總銷售額。這樣就可以方便地計算每個員工的銷售額占該部門總銷售額的百分比。

原創文章,作者:小藍,如若轉載,請註明出處:https://www.506064.com/zh-hk/n/287040.html

(0)
打賞 微信掃一掃 微信掃一掃 支付寶掃一掃 支付寶掃一掃
小藍的頭像小藍
上一篇 2024-12-23 13:07
下一篇 2024-12-23 13:07

相關推薦

  • Spark集成ES開發

    本文將介紹如何使用Spark集成ES進行數據開發和分析。 一、系統概述 Spark是一個基於內存的分佈式計算系統,可以快速地處理大量數據。而ES(ElasticSearch)則是一…

    編程 2025-04-28
  • Helm部署ES CrashLoopBackOff

    如果你在使用Helm部署ES時遇到CrashLoopBackOff問題,那麼本文將對這一問題進行詳細解答。我們將從以下方面進行闡述: 一、問題分析與定位 在使用Helm部署ES時,…

    編程 2025-04-27
  • Linux sync詳解

    一、sync概述 sync是Linux中一個非常重要的命令,它可以將文件系統緩存中的內容,強制寫入磁盤中。在執行sync之前,所有的文件系統更新將不會立即寫入磁盤,而是先緩存在內存…

    編程 2025-04-25
  • 神經網絡代碼詳解

    神經網絡作為一種人工智能技術,被廣泛應用於語音識別、圖像識別、自然語言處理等領域。而神經網絡的模型編寫,離不開代碼。本文將從多個方面詳細闡述神經網絡模型編寫的代碼技術。 一、神經網…

    編程 2025-04-25
  • nginx與apache應用開發詳解

    一、概述 nginx和apache都是常見的web服務器。nginx是一個高性能的反向代理web服務器,將負載均衡和緩存集成在了一起,可以動靜分離。apache是一個可擴展的web…

    編程 2025-04-25
  • git config user.name的詳解

    一、為什麼要使用git config user.name? git是一個非常流行的分佈式版本控制系統,很多程序員都會用到它。在使用git commit提交代碼時,需要記錄commi…

    編程 2025-04-25
  • 詳解eclipse設置

    一、安裝與基礎設置 1、下載eclipse並進行安裝。 2、打開eclipse,選擇對應的工作空間路徑。 File -> Switch Workspace -> [選擇…

    編程 2025-04-25
  • Python安裝OS庫詳解

    一、OS簡介 OS庫是Python標準庫的一部分,它提供了跨平台的操作系統功能,使得Python可以進行文件操作、進程管理、環境變量讀取等系統級操作。 OS庫中包含了大量的文件和目…

    編程 2025-04-25
  • Linux修改文件名命令詳解

    在Linux系統中,修改文件名是一個很常見的操作。Linux提供了多種方式來修改文件名,這篇文章將介紹Linux修改文件名的詳細操作。 一、mv命令 mv命令是Linux下的常用命…

    編程 2025-04-25
  • MPU6050工作原理詳解

    一、什麼是MPU6050 MPU6050是一種六軸慣性傳感器,能夠同時測量加速度和角速度。它由三個傳感器組成:一個三軸加速度計和一個三軸陀螺儀。這個組合提供了非常精細的姿態解算,其…

    編程 2025-04-25

發表回復

登錄後才能評論