ES的Refresh、Flush、Merge操作对性能的影响? ES如何实现近实时(NRT)搜索? ES聚合查询的Terms和Cardinality区别?

news2025/5/25 5:34:07
一、Refresh/Flush/Merge机制与性能影响
  1. Refresh(刷新)
  • 作用:将内存缓冲区(In-memory buffer)数据写入文件系统缓存生成新段(Segment),使文档可被搜索
  • 性能影响:
    • 默认每秒自动执行,保证近实时搜索(NRT)
    • 频繁手动刷新会降低索引吞吐量
    • 配置建议:index.refresh_interval = 30s(写入密集型场景)
  1. Flush(刷盘)
  • 作用:
    1. 将文件系统缓存数据持久化到磁盘
    2. 清空事务日志(Translog)
    
  • 性能影响:
    • 触发条件:Translog大小阈值(默认512MB)或时间阈值(30分钟)
    • 涉及磁盘IO,高频率刷盘会显著影响集群性能
  1. Merge(段合并)
  • 作用:合并多个小段为更大段,提升查询性能
  • 性能影响:
    // 合并策略配置示例
    PUT /index/_settings {
      "index.merge.policy": {
        "max_merged_segment": "5gb",    // 最大合并段大小
        "segments_per_tier": 10         // 每层段数量
      }
    }
    
    • 后台线程自动执行,消耗大量IO/CPU资源
    • 强制合并(_forcemerge)建议在业务低峰期执行

开发建议 :

  1. 优先使用默认配置,确有性能瓶颈时再调整
  2. 高负载场景可增大Refresh间隔减少IO压力
  3. 避免频繁执行_flush和_forcemerge等手动操作
  4. 监控 indices.refresh.time 和 merges 相关指标辅助调优
二、近实时(NRT)搜索原理
一、全称与核心原理
  1. 全称
    Near Real-Time(近实时)

  2. 实现原理

数据写入流程:
1. 文档写入内存缓冲区(1ms内完成)
2. 通过refresh操作将数据刷到文件系统缓存(默认1秒)
3. 新生成的段(Segment)对搜索可见
4. Translog保障数据持久化(崩溃恢复)
二、开发者实践指南
  1. 配置优化
// 调整refresh间隔(trade-off实时性与吞吐量)
PUT /your_index/_settings {
  "index.refresh_interval": "30s"  // 默认1s,写入密集型场景建议调大
}
  1. 强制刷新API
# 立即刷新使新文档可搜索(生产环境慎用)
POST /your_index/_refresh?pretty
  1. 近实时写入模式
// Java客户端写入时指定刷新策略
IndexRequest request = new IndexRequest("your_index");
request.source(jsonMap, XContentType.JSON);
request.setRefreshPolicy(WriteRequest.RefreshPolicy.WAIT_UNTIL);  // 可选值:IMMEDIATE, WAIT_UNTIL, NONE
  1. 可靠性保障
通过Translog机制实现:
- 每个分片维护自己的事务日志
- 默认配置下每隔5s刷盘(index.translog.sync_interval)
- 超过512MB自动刷盘(index.translog.flush_threshold_size)
三、性能优化建议
  1. 写入场景
高吞吐场景:
  - refresh_interval调至30s-1min
  - 关闭副本(index.number_of_replicas: 0)初始化时
  - 使用bulk API批量写入
  1. 查询场景
实时性要求高时:
PUT /your_index/_settings {
  "index.search.idle.after": "0s"  // 禁用查询缓存自动过期
}
  1. 监控指标
# 查看refresh统计
GET /_stats/refresh?pretty

# 查看segment状态
GET /_cat/segments?v&h=index,segment,size,committed,search
三、Terms vs Cardinality聚合
特性Terms聚合Cardinality聚合
用途统计每个唯一值的出现次数估算字段唯一值数量(基数)
精度精确统计基于HyperLogLog++算法(误差率0.5%)
内存消耗高(存储所有唯一值)低(固定大小寄存器)
适用场景分类统计(如热门商品TOP10)UV统计(如独立访客数)

示例场景:

// Terms聚合 - 统计热门商品
{
  "aggs": {
    "popular_items": {
      "terms": { 
        "field": "product_id",
        "size": 10
      }
    }
  }
}

// Cardinality聚合 - 统计独立用户数 
{
  "aggs": {
    "unique_users": {
      "cardinality": {
        "field": "user_id",
        "precision_threshold": 1000
      }
    }
  }
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2385111.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

COMPUTEX 2025 | 广和通创新解决方案共筑AI交互新纪元

5月20日至23日,广和通携多领域创新解决方案亮相2025年台北国际电脑展(COMPUTEX 2025),台北南港展览馆#K0727a展位。此次展会,广和通围绕“Advancing Connectivity Intelligent Future”为主题,设置四大核心…

了解Android studio 初学者零基础推荐(3)

kotlin中的数据类及对象 使用泛型创建可重复使用的类 我们将常在线答题考试,有的考试题型包括判断,或者填空,以及数学题,此外试题内容还包括难易程度:"easy”,"medium","hard",…

Spring 定时器和异步线程池 实践指南

前言:Spring:异步线程池和定时器 原理篇 一、Spring Scheduler 1. 创建一个 SpringBoot项目,在启动类上添加 EnableScheduling 注解,表示开启定时任务。 2. 创建SchedulerService,在方法上面启用Scheduled 注解 在方…

零基础设计模式——创建型模式 - 生成器模式

第二部分:创建型模式 - 生成器模式 (Builder Pattern) 前面我们学习了单例、工厂方法和抽象工厂模式,它们都关注如何创建对象。生成器模式(也常被称为建造者模式)是另一种创建型模式,它专注于将一个复杂对象的构建过程…

MD编辑器推荐【Obsidian】含下载安装和实用教程

为什么推荐 Obsidian ? 免费 (Typora 开始收费了)Typora 实现的功能,它都有!代码块可一键复制 文件目录支持文件夹 大纲支持折叠、搜索 特色功能 – 白板 特色功能 – 关系图谱 下载 https://pan.baidu.com/s/1I1fSly…

I-CON: A UNIFYING FRAMEWORK FOR REPRESENTATION LEARNING

I-con:表示学习的统一框架 基本信息 ICLR 2025 博客贡献人 田心 作者 Shaden Alshammari, John Hershey, Axel Feldmann, William T. Freeman, Mark Hamilton 关键词 I-Con框架,表征学习,损失函数统一框架 摘要 随着表征学习领域的快速发展,各类…

Missashe线代题型总结

Missashe线性代数考研题型总结 说明:这篇笔记用于博主对"线代"常考题型进行总结,99%为真题,大概可能应该会逐步更新解题思路。有目录可直接检索。 第一章 行列式 1 具体行列式计算 1)么字型 2015 数一 2016 数一三…

蓝桥杯13届 卡牌

问题描述 这天, 小明在整理他的卡牌。 他一共有 n 种卡牌, 第 i 种卡牌上印有正整数数 i(i∈[1,n]), 且第 i 种卡牌 现有 ai​ 张。 而如果有 n 张卡牌, 其中每种卡牌各一张, 那么这 n 张卡牌可以被称为一 套牌。小明为了凑出尽可能多套牌, 拿出了 m 张空白牌, 他可以在上面…

安卓开发用到的设计模式(1)创建型模式

安卓开发用到的设计模式(1)创建型模式 文章目录 安卓开发用到的设计模式(1)创建型模式1. 单例模式(Singleton Pattern)2. 工厂模式(Factory Pattern)3. 抽象工厂模式(Abs…

线程的一些基本知识

前言 最近在学习线程,线程与进程是面试中可能常考的问题,我总结了线程的一些知识。分享给大家,希望可以帮组到大家。 线程知识总结(包含与进程的区别) 结语 希望可以帮助到有需要的人,bye~~

【Python打卡Day30】模块与包的导入@浙大疏锦行

#一、导入官方库 我们复盘下学习python的逻辑,所谓学习python就是学习python常见的基础语法学习你所处理任务需要用到的第三方库 所以你用到什么学什么库即可。学习python本身就是个伪命题,就像你说学习科目一样,你没说清晰你学习的具体科目…

26考研|高等代数:λ-矩阵

前言 本章知识点较为简单,是作为工具性的一章,在学习过程中,要注意区分行列式因子、不变因子以及初等因子,同时还要对若尔当标准型的计算应该足够熟悉,尤其是复矩阵的若尔当标准型计算是十分重要的。 课本重点回顾 …

我店模式系统开发打造本地生活生态商圈

在当今快节奏的商业环境中,商家们面临着越来越多的挑战,包括市场竞争加剧、消费者需求多样化以及运营效率的提高等。为了应对这些挑战,越来越多的商家开始寻求信息化解决方案,以提升运营效率和客户体验。我的店模式系统平台应运而…

数据库练习(3)

简单选择题要点: 1.锁协议: 数据库原理及应用(高级篇)01——封锁协议(图文并解,超详细,一看就会)_数据库锁协议-CSDN博客https://blog.csdn.net/qq_44236958/article/details/105790970 2.tablespace和datafile 一个tablespace可以有一个或多…

OpenGL ES 基本基本使用、绘制基本2D图形

OpenGL ES 绘制基础图形 OpenGL ES基本概念 OpenGL ES (Embedded-System) 是专为嵌入式设备(如手机、平板、VR 设备)设计的图形 API,是 OpenGL 的轻量级版本。 |下面是一个Android使用 OpenGL ES的基本框架 MainActivity 设置一…

BU9792驱动段式LCD

1、C文件,需要自己添加软件iic或硬件iic驱动,该驱动在我的别的文章内有。亲测bu9792是正常驱动的(只用到了前14个SEG),说实话有点懵了。后面的ICSET有个P2根据不同的SEG地址要置1或0,读的时候最高位也是0?读命令寄存器…

力扣-将x减到0的最小操作数

1.题目描述 2.题目链接 1658. 将 x 减到 0 的最小操作数 - 力扣(LeetCode) 3.题目分析 1)正面求解困难 题目要求我们每次都从最左边或者最右边取一个数,使x-元素的值,并在数组中移除该元素。最后返回的最小操作数…

三、【数据建模篇】:用 Django Models 构建测试平台核心数据

【数据建模篇】:用 Django Models 构建测试平台核心数据 前言我们要设计哪些核心数据?准备工作:创建 Django App开始设计数据模型 (Models)1. 通用基础模型 (可选但推荐)2. 项目模型 (Project)3. 模块模型 (Module)4. 测试用例模型 (TestCase…

shp2pgsql 导入 Shp 到 PostGIS 空间数据库

前言 ❝ shp2pgsql是PostGIS自带的命令行工具,用于将Shapefile文件声称SQL脚本导入到PostGIS空间数据库。 1. 安装 PostGIS 通过Application Stack Builder或者下载单独的PostGIS包进行安装。而shp2pgsql则是与PostGIS工具集成在一起,无需单独下载。该命…

word设置如“第xx页 共xx页”格式的页码

问题1: 为word文档设置如“第xx页 共xx页”格式的页码。 解决方法: 1、鼠标双击页脚位置进入页脚编辑模式; 2、在页脚处输入“第 页 共 页”内容并居中; 3、将光标放在“第 页”之间并插入“Page”,执行操作“…