ElasticSearch深入解析（十二）：聚合——分桶聚合、指标聚合、管道子聚合

文章目录

一、分桶聚合
- 1. 分桶聚合的核心逻辑与核心类型
- 2. 分桶聚合的高级特性
二、指标聚合
- 1. 指标聚合的核心逻辑与基础类型
- - （1）基础统计指标（单值输出）
  - （2）复合统计指标（多值输出）
- 2. 指标聚合与分桶聚合的嵌套使用
- 3. 高级特性与灵活扩展
- - （1）地理空间指标
  - （2）脚本支持
  - （3）缺失值处理
三、管道子聚合
- 1. 桶排序（`bucket_sort`）
- 2. 桶过滤（`bucket_selector`）
- 3. 桶脚本（`bucket_script`）
- 4. 累积聚合（如`cumulative_sum`）
- 5. 滑动窗口聚合（如`moving_avg`）
- 6. 桶统计聚合（如`avg_bucket`、`sum_bucket`）

在数据驱动决策的时代，聚合函数作为数据分析与数据挖掘的核心工具，正发挥着越来越重要的作用。它能够对大量数据进行高效处理，通过诸如求和、求平均、计数、最值计算等操作，帮助用户从复杂的数据集中提炼关键信息，快速把握数据的整体特征。

无论是企业分析业务指标、科研人员处理实验数据，还是普通用户进行日常数据整理，聚合函数都能凭借其强大的数据归纳能力，助力用户深入理解数据内涵、精准识别核心要素，并清晰洞察数据背后隐藏的趋势与规律，为后续的分析决策提供坚实的数据支撑。

掌握聚合函数的原理与应用，意味着在数据海洋中拥有了一把高效的 “指南针”，能够更从容地挖掘数据价值，释放数据潜力。

应用场景：

聚合类型	核心目标	输入数据	典型应用场景举例
分桶聚合	划分分析单元（分组）	原始文档数据	按地区/时间/类别分组
指标聚合	计算桶内统计值（量化）	分桶后的文档数据	计算各分组的销售额、用户数、均值
管道子聚合	加工聚合结果（二次分析）	分桶或指标的输出结果	排序Top N、累积和、滑动平均、占比

一、分桶聚合

在Elasticsearch中，分桶聚合（Bucket Aggregations） 是数据分析的核心功能之一，其作用是将符合条件的文档按照特定规则“分组”（形成桶），以便对每个分组内的数据进行统计分析。这种机制类似于SQL中的GROUP BY，但支持更丰富的分组策略和复杂场景，尤其适合非结构化数据的大规模实时分析。

1. 分桶聚合的核心逻辑与核心类型

分桶聚合的本质是根据文档字段或表达式创建“桶”，每个桶包含一组满足条件的文档。核心操作包括：
单字段分桶：基于字段值分组，典型代表是terms聚合（适用于离散值，如标签、用户ID）。

{
  "aggs": {
    "user_groups": {
      "terms": { "field": "user_id", "size": 10 } // 按user_id分组，返回Top 10
    }
  }
}

范围分桶：将数值/日期按区间分组，包括range（自定义区间）和histogram（等距连续区间，适用于数值）。

{
  "aggs": {
    "age_ranges": {
      "range": {
        "field": "age",
        "ranges": [{"from": 0, "to": 18}, {"from": 18, "to": 60}]
      }
    }
  }
}

时间序列分桶：针对日期数据的专属分桶，date_histogram支持按时间间隔（如天、小时）自动生成桶，常用于日志分析、趋势监控。

{
  "aggs": {
    "daily_logs": {
      "date_histogram": {
        "field": "timestamp",
        "interval": "day", // 按天分组
        "format": "yyyy-MM-dd"
      }
    }
  }
}

地理分桶：针对地理坐标数据，如geo_distance（按距离分组）和geo_hash_grid（地理网格分组），适用于位置相关分析（如门店辐射范围统计）。

2. 分桶聚合的高级特性

复合分桶：支持嵌套聚合，即在一个桶内再创建子桶，实现多层分组。

{
  "aggs": {
    "country_groups": {
      "terms": { "field": "country" },
      "aggs": { // 子聚合：每个国家内按城市分组
        "city_groups": { "terms": { "field": "city" } }
      }
    }
  }
}

脚本分桶：通过script参数支持自定义分组逻辑，例如基于表达式或动态字段分组。

{
  "aggs": {
    "custom_buckets": {
      "terms": {
        "script": {
          "source": "doc['price'].value > 100 ? 'high' : 'low'",
          "lang": "painless"
        }
      }
    }
  }
}

缺失值处理：通过missing参数指定未匹配桶的处理方式（如单独归为一个桶）。

{
  "aggs": {
    "product_categories": {
      "terms": { "field": "category", "missing": "Uncategorized" }
    }
  }
}

二、指标聚合

在Elasticsearch的聚合体系中，指标聚合（Metric Aggregations） 是与分桶聚合（Bucket Aggregations）相辅相成的核心模块。分桶聚合负责将数据分组，而指标聚合则专注于对每个分组（或全局数据）进行数值计算，输出统计指标（如平均值、总和、最大值等），最终为数据分析提供量化依据。本文将从核心类型、使用场景、高级特性等方面深入解析指标聚合的能力。

1. 指标聚合的核心逻辑与基础类型

指标聚合的本质是对文档字段或表达式进行计算，返回一个或多个数值型结果。它支持两种输入形式：

单桶场景：对全局数据或某个分桶内的文档计算指标（需与分桶聚合嵌套使用）。
无桶场景：直接对查询结果集计算指标（独立使用，无需分组）。

（1）基础统计指标（单值输出）

count：统计文档数量（等价于SQL的COUNT(*)）。

{
  "aggs": {
    "total_products": { "count": {} } // 统计总文档数
  }
}

sum / avg / min / max：对数值型字段求和、求平均、求极值（等价于SQL的SUM/AVG/MIN/MAX）。

{
  "aggs": {
    "avg_price": { "avg": { "field": "price" } },
    "total_sales": { "sum": { "field": "quantity" } }
  }
}

sum_of_squares：计算字段值的平方和（用于方差/标准差的前置计算）。

（2）复合统计指标（多值输出）

stats：一次性返回count、min、max、avg、sum五个指标（高效批量计算）。

{
  "aggs": {
    "price_stats": { "stats": { "field": "price" } }
  }
}

输出示例：

{
  "price_stats": {
    "count": 100,
    "min": 10.0,
    "max": 500.0,
    "avg": 150.5,
    "sum": 15050.0
  }
}

extended_stats：在stats基础上额外返回方差、标准差、标准误等高级统计值，适合需要深度统计分析的场景（如质量控制、数据分布评估）。

2. 指标聚合与分桶聚合的嵌套使用

指标聚合通常作为分桶聚合的子聚合，对每个桶内的数据独立计算指标，形成“分组+度量”的完整分析链路。例如：

{
  "aggs": {
    "monthly_sales": { // 按月份分桶（分桶聚合）
      "date_histogram": { "field": "sale_date", "interval": "month" },
      "aggs": { // 子聚合：对每个月份桶计算指标
        "avg_order_amount": { "avg": { "field": "amount" } }, // 月均订单金额
        "total_orders": { "count": {} } // 月订单量
      }
    }
  }
}

上述示例中，date_histogram先将数据按月份分组，子聚合avg和count分别计算每个月份桶的平均金额和订单数，最终输出时间序列下的多指标分析结果。

3. 高级特性与灵活扩展

（1）地理空间指标

geo_bounds：计算地理坐标字段（如geo_point）的边界范围（返回包含所有点的最小矩形的左上角和右下角坐标），常用于地图展示时的视口自动缩放。
geo_centroid：计算地理坐标的中心点（质心），适用于分析位置数据的聚集趋势（如用户分布中心）。

（2）脚本支持

通过script参数，指标聚合可基于Painless脚本实现自定义计算逻辑，例如：

对字段进行转换后计算（如对日志中的响应时间戳转换为耗时）。
结合多个字段计算复合指标（如计算单价×数量的总和）。

{
  "aggs": {
    "total_revenue": {
      "sum": {
        "script": {
          "source": "doc['price'].value * doc['quantity'].value",
          "lang": "painless"
        }
      }
    }
  }
}

（3）缺失值处理

通过missing参数指定字段缺失时的替代值（仅对数值型指标有效），例如：

{
  "aggs": {
    "avg_rating": {
      "avg": { "field": "rating", "missing": 0.0 } // 缺失评分视为0分
    }
  }
}

三、管道子聚合

在Elasticsearch中，管道子聚合（Pipeline Sub-Aggregation） 是一类特殊的聚合，其输入不是原始文档数据，而是依赖于其他聚合（父聚合）的输出结果，用于对父聚合生成的桶或指标进行二次处理。这类聚合通常作为子聚合嵌套在桶聚合（如terms、date_histogram等）或其他支持的聚合中，实现对聚合结果的进一步分析，比如排序、过滤、统计或转换。

核心特点：
- 依赖父聚合结果：管道子聚合的输入是父聚合生成的桶（Bucket）或指标（Metric），而非文档数据。
- 嵌套使用：必须作为子聚合存在于父聚合（通常是桶聚合）中，不能直接在查询层级独立使用。
- 处理聚合结果：用于对父聚合的输出进行排序、过滤、计算累积值、滑动值等操作。
使用场景：
- 排序与过滤：对分组结果按特定指标排序（bucket_sort）或过滤（bucket_selector），例如热门商品Top 10。
- 时间序列分析：在时间桶（如date_histogram）上计算累积值（cumulative_sum）或滑动窗口值（moving_avg），用于趋势分析。
- 比例与统计：通过bucket_script计算占比，或通过avg_bucket计算分组指标的统计值。
- 复杂业务逻辑：结合脚本（如Painless）实现自定义的桶处理逻辑。
注意事项：
- 父聚合要求：管道子聚合必须嵌套在支持的父聚合（通常是桶聚合）中，且父聚合需生成有序的桶（如时间序列）或可统计的桶集合。
- buckets_path参数：多数管道聚合通过buckets_path指定父聚合的指标路径（格式为父聚合名称.子聚合名称）。
- 性能影响：复杂的管道聚合可能增加计算开销，尤其是嵌套多层聚合时需注意优化。

1. 桶排序（`bucket_sort`）

功能：对父聚合生成的桶按指定指标排序，保留前N个桶。
示例：按省份分组（terms聚合）后，按每个省份的销售额降序排序，取前3个省份。

{
  "aggs": {
    "province_groups": {
      "terms": { "field": "province" },
      "aggs": {
        "sorted_by_sales": {
          "bucket_sort": {
            "sort": [
              { "sales_total": { "order": "desc" } }  // 按子聚合指标排序
            ],
            "size": 3  // 保留前3个桶
          }
        }
      }
    }
  }
}

2. 桶过滤（`bucket_selector`）

功能：通过脚本或条件过滤父聚合的桶，仅保留符合条件的桶。
示例：过滤出销售额超过1000的省份组。

{
  "aggs": {
    "province_groups": {
      "terms": { "field": "province" },
      "aggs": {
        "filter_high_sales": {
          "bucket_selector": {
            "script": "params.sales_total > 1000"  // 保留满足条件的桶
          }
        }
      }
    }
  }
}

3. 桶脚本（`bucket_script`）

功能：对每个桶应用脚本，生成新的指标或修改现有指标。
示例：为每个省份组计算销售额占总和的比例。

{
  "aggs": {
    "province_groups": {
      "terms": { "field": "province" },
      "aggs": {
        "sales_ratio": {
          "bucket_script": {
            "script": {
              "source": "def total = params._agg.province_groups.sum; doc['sales_total'] / total",
              "params": { "sum": { "sum": { "field": "sales" } } }  // 引入父聚合的总和
            }
          }
        }
      }
    }
  }
}

4. 累积聚合（如`cumulative_sum`）

功能：按顺序计算父聚合结果的累积值（如时间序列的累积和）。
示例：按天分组后计算每天的累积销售额。

{
  "aggs": {
    "daily_sales": {
      "date_histogram": { "field": "order_date", "interval": "day" },
      "aggs": {
        "cumulative_sales": {
          "cumulative_sum": { "buckets_path": "sales_total" }  // 对父聚合的`sales_total`指标求累积和
        }
      }
    }
  }
}

5. 滑动窗口聚合（如`moving_avg`）

功能：在有序的桶（如时间序列）上计算滑动窗口的平均值。
示例：计算最近7天的滑动平均销售额。

{
  "aggs": {
    "daily_sales": {
      "date_histogram": { "field": "order_date", "interval": "day" },
      "aggs": {
        "moving_avg_7d": {
          "moving_avg": {
            "buckets_path": "sales_total",
            "window_size": 7  // 窗口大小为7天
          }
        }
      }
    }
  }
}

6. 桶统计聚合（如`avg_bucket`、`sum_bucket`）

功能：对父聚合的所有桶的指标进行统计（如求平均值、总和）。
示例：计算所有省份的平均销售额。

{
  "aggs": {
    "province_groups": {
      "terms": { "field": "province" },
      "aggs": {
        "sales_avg": {
          "avg_bucket": { "buckets_path": "sales_total" }  // 对所有桶的`sales_total`求平均
        }
      }
    }
  }
}