记一次 Starrocks be 内存异常宕机

news2025/7/21 22:58:29

突发性 be 内存飙高,直至被系统 kill 掉,be 内存如下:其中 starrocks_be_update_mem_bytes 指标打满,重启也是如此
在这里插入图片描述

[root@localhost bin]# curl -XGET -s http://192.168.1.49:8040/metrics | grep "^starrocks_be_.*_mem_bytes\|^starrocks_be_tcmalloc_bytes_in_use
starrocks_be_bitmap_index_mem_bytes 0
starrocks_be_bloom_filter_index_mem_bytes 0
starrocks_be_chunk_allocator_mem_bytes 0
starrocks_be_clone_mem_bytes 0
starrocks_be_column_metadata_mem_bytes 5185856
starrocks_be_column_pool_mem_bytes 0
starrocks_be_column_zonemap_index_mem_bytes 127232
starrocks_be_compaction_mem_bytes 1550597312
starrocks_be_consistency_mem_bytes 0
starrocks_be_datacache_mem_bytes 0
starrocks_be_load_mem_bytes 0
starrocks_be_metadata_mem_bytes 172205561
starrocks_be_ordinal_index_mem_bytes 4896744
starrocks_be_process_mem_bytes 59815309344
starrocks_be_query_mem_bytes 0
starrocks_be_rowset_metadata_mem_bytes 66151306
starrocks_be_schema_change_mem_bytes 0
starrocks_be_segment_metadata_mem_bytes 96028
starrocks_be_segment_zonemap_mem_bytes 72196
starrocks_be_short_key_index_mem_bytes 0
starrocks_be_storage_page_cache_mem_bytes 0
starrocks_be_tablet_metadata_mem_bytes 100772371
starrocks_be_tablet_schema_mem_bytes 1618363
starrocks_be_update_mem_bytes 40682742067

dmesg -T 看到被 kill 了

# dmesg -T | grep starrocks

[Thu May 29 12:07:24 2025] Killed process 28647 (starrocks_be), UID 0, total-vm:170796752kB, anon-rss:67733148kB, file-rss:0kB, shmem-rss:0kB
[Thu May 29 12:28:55 2025] [31816]     0 31816 43159618 16927419   53727        0             0 starrocks_be
[Thu May 29 12:28:55 2025] Out of memory: Kill process 31816 (starrocks_be) score 724 or sacrifice child
[Thu May 29 12:28:55 2025] Killed process 31816 (starrocks_be), UID 0, total-vm:172638472kB, anon-rss:67709676kB, file-rss:0kB, shmem-rss:0kB
[Thu May 29 12:55:49 2025] [ 2682]     0  2682 53296564 16972830   63852        0             0 starrocks_be
[Thu May 29 12:55:49 2025] Out of memory: Kill process 2682 (starrocks_be) score 727 or sacrifice child
[Thu May 29 12:55:49 2025] Killed process 2682 (starrocks_be), UID 0, total-vm:213186256kB, anon-rss:67891320kB, file-rss:0kB, shmem-rss:0kB
[Thu May 29 13:09:03 2025] [ 4756]     0  4756 52227527 17808095   67753   667099             0 starrocks_be
[Thu May 29 13:09:03 2025] Out of memory: Kill process 4756 (starrocks_be) score 791 or sacrifice child
[Thu May 29 13:09:03 2025] Killed process 4756 (starrocks_be), UID 0, total-vm:208910108kB, anon-rss:71232380kB, file-rss:0kB, shmem-rss:0kB
[Thu May 29 13:21:18 2025] [ 8048]     0  8048 55023047 18406542   63982        0             0 starrocks_be
[Thu May 29 13:21:18 2025] Out of memory: Kill process 8048 (starrocks_be) score 788 or sacrifice child
[Thu May 29 13:21:18 2025] Killed process 8048 (starrocks_be), UID 0, total-vm:220092188kB, anon-rss:73626168kB, file-rss:0kB, shmem-rss:0kB
[Thu May 29 13:39:41 2025] [10765]     0 10765 62032082 18145670   79366   299756             0 starrocks_be
[Thu May 29 13:39:41 2025] Out of memory: Kill process 10765 (starrocks_be) score 790 or sacrifice child
[Thu May 29 13:39:41 2025] Killed process 10765 (starrocks_be), UID 0, total-vm:248128328kB, anon-rss:72 

be.INFO 持续报:Memory of process exceed limit. Start execute plan f Used: 83343295392, Limit: 61847529062. Mem usage has exceed the limit of BE

I0529 10:44:04.416954 10989 starrocks_be.cpp:231] BE start step 11: start brpc server successfully
I0529 10:44:04.423513 10989 starrocks_be.cpp:240] BE start step 12: start http server successfully
I0529 10:44:04.423936 10989 thrift_server.cpp:380] heartbeat has started listening port on 9050
I0529 10:44:04.423982 10989 starrocks_be.cpp:259] BE start step 13: start heartbeat server successfully
I0529 10:44:04.423985 10989 starrocks_be.cpp:261] BE started successfully
I0529 10:44:04.545176 11741 tablet_manager.cpp:816] Found the best tablet to compact. compaction_type=update tablet_id=3544752 highest_score=655
I0529 10:44:04.545372 11741 tablet_updates.cpp:2725] update compaction start tablet:3544752 version:11 score:17605201920 merge levels:3 pick:3/valid:3/all:4 248,282,283 #pick_segments:68 #valid_segments:68 #rows:119341438->119341434 bytes:106.37 MB->106.37 MB(estimate)
I0529 10:44:06.347834 11837 heartbeat_server.cpp:77] get heartbeat from FE.host:192.168.1.49, port:9020, cluster id:274557974, run_mode:SHARED_NOTHING, counter:1
I0529 10:44:06.347885 11837 heartbeat_server.cpp:99] Updating master info: TMasterInfo(network_address=TNetworkAddress(hostname=192.168.1.49, port=9020), cluster_id=274557974, epoch=29, token=8400b357-a521-425d-a338-3c5e7deea427, backend_ip=192.168.1.49, http_port=8030, heartbeat_flags=0, backend_id=10006, min_active_txn_id=395207, run_mode=SHARED_NOTHING)
I0529 10:44:06.347919 11837 heartbeat_server.cpp:104] Master FE is changed or restarted. report tablet and disk info immediately
W0529 10:44:06.406687 11097 mem_hook.cpp:249] large memory alloc, query_id:00000000-0000-0000-0000-000000000000 instance: 00000000-0000-0000-0000-000000000000 acquire:1828867984 bytes, stack:
    @          0x2dbffed  malloc
    @          0x8b3a0b5  operator new()
    @          0x505ab4d  std::vector<>::_M_range_insert<>()
    @          0x505c676  starrocks::PrimaryKeyEncoder::encode()
    @          0x55fc5a5  starrocks::CompactionState::_load_segments()
    @          0x55fd42b  starrocks::CompactionState::_do_load()
    @          0x55fd4d5  _ZZSt9call_onceIZN9starrocks15CompactionState4loadEPNS0_6RowsetEEUlvE_JEEvRSt9once_flagOT_DpOT0_ENUlvE0_4_FUNEv
    @     0x2abe0386020b  __pthread_once_slow
    @          0x55fb788  starrocks::CompactionState::load()
    @          0x5137ad5  starrocks::TabletUpdates::_apply_compaction_commit()
    @          0x513ef25  starrocks::TabletUpdates::do_apply()
    @          0x2e79fdd  starrocks::ThreadPool::dispatch_thread()
    @          0x2e739fa  starrocks::Thread::supervise_thread()
    @     0x2abe03861ea5  start_thread
    @     0x2abe0449cb0d  __clone
    @              (nil)  (unknown)
...
E0529 10:39:18.652560  8960 update_compaction_state.cpp:129]  memory limit exceeded when loading compaction state pk tablet_id:3544754 rowset #rows:201887404 size:537369140 seg:0/1 #rows:201887404 memory:20095316174 stats:index:510.85 MB rowset:0 compaction:37.39 GB delvec:8.00 B dcg:0 total:37.89 GB/34.56 GB
W0529 10:39:18.652825  8960 mem_hook.cpp:249] large memory alloc, query_id:00000000-0000-0000-0000-000000000000 instance: 00000000-0000-0000-0000-000000000000 acquire:1615099232 bytes, stack:
    @          0x2dbffed  malloc
    @          0x8b3a0b5  operator new()
    @          0x5034ee6  std::vector<>::reserve()
    @          0x502336c  starrocks::PrimaryIndex::_replace_persistent_index()
    @          0x502354e  starrocks::PrimaryIndex::try_replace()
    @          0x513838c  starrocks::TabletUpdates::_apply_compaction_commit()
    @          0x513ef25  starrocks::TabletUpdates::do_apply()
    @          0x2e79fdd  starrocks::ThreadPool::dispatch_thread()
    @          0x2e739fa  starrocks::Thread::supervise_thread()
    @     0x2b2a272baea5  start_thread
    @     0x2b2a27ef5b0d  __clone
    @              (nil)  (unknown)

每次重启 be 都会去拉起 tablet: 3544744 load persistent indexupdate_compaction

I0529 12:45:48.295147  2709 daemon.cpp:197] Current memory statistics: process(1433574152), query_pool(0), load(0), metadata(168087184), compaction(116601792), schema_change(0), column_pool(0), page_cache(0), update(8), chunk_allocator(0), clone(0), consistency(0), datacache(0)
I0529 12:45:49.596513  2799 persistent_index.cpp:4975] load persistent index tablet:3544744 version:11 size: 225867285 l0_size: 0 l0_capacity:0 #shard: 2233 l1_size:23864293 l2_size:4437070901 memory: 261692378 status: OK time:23875ms
...
I0529 12:46:23.093927  2799 update_compaction_state.cpp:137]  loading large compaction state tablet_id:3544744 rowset #rows:225867285 size:661735103 seg:0/1 #rows:225867285 memory:20051758160 stats:index:510.85 MB rowset:0 compaction:18.67 GB delvec:8.00 B dcg:0 total:19.17 GB/34.56 GB
...
E0529 12:46:27.941511  2800 update_compaction_state.cpp:129]  memory limit exceeded when loading compaction state pk tablet_id:3544754 rowset #rows:201887404 size:537369140 seg:0/1 #rows:201887404 memory:20095316174 stats:index:510.85 MB rowset:0 compaction:37.39 GB delvec:8.00 B dcg:0 total:37.89 GB/34.56 GB
I0529 12:46:27.941589  2800 update_compaction_state.cpp:137]  loading large compaction state tablet_id:3544754 rowset #rows:201887404 size:537369140 seg:0/1 #rows:201887404 memory:20095316174 stats:index:510.85 MB rowset:0 compaction:37.39 GB delvec:8.00 B dcg:0 total:37.89 GB/34.56 GB
处理

参考:https://forum.mirrorship.cn/t/topic/5086/2

/data/app/sr/be/lib/starrocks_be: error while loading shared libraries: libjvm.so: cannot open shared object file: No such file or directory

LD_LIBRARY_PATH 系统库配置路径
在这里插入图片描述

删除问题 tablet元数据
[root@localhost bin]# ./meta_tool.sh --operation=delete_persistent_index_meta --root_path=/data/dbdata --tablet_id=3544754
------------------------------------------
WARNING: Logging before InitGoogleLogging() is written to STDERR
I0529 15:24:45.140825 30221 data_dir.cpp:135] path: /data/dbdata, hash: 1903728691121462593
delete tablet persistent index meta success, tablet_id: 3544754

[root@localhost bin]# ./meta_tool.sh --operation=delete_meta --root_path=/data/dbdata --tablet_id=3544754

在这里插入图片描述

相关:

数据无导入的前提下, compaction却一直发生

Starrocks-BE v3.2.3 每天晚上一直把磁盘IO打到100%,性能损耗巨大

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2396561.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LangChain-结合GLM+SQL+函数调用实现数据库查询(一)

业务流程 实现步骤 1. 加载数据库配置 在项目的根目录下创建.env 文件&#xff0c;设置文件内容&#xff1a; DB_HOSTxxx DB_PORT3306 DB_USERxxx DB_PASSWORDxxx DB_NAMExxx DB_CHARSETutf8mb4 加载环境变量&#xff0c;从 .env 文件中读取数据库配置信息 使用 os.getenv…

2025年渗透测试面试题总结-匿名[校招]安全工程师(甲方)(题目+回答)

安全领域各种资源&#xff0c;学习文档&#xff0c;以及工具分享、前沿信息分享、POC、EXP分享。不定期分享各种好玩的项目及好用的工具&#xff0c;欢迎关注。 目录 匿名[校招]安全工程师(甲方) 1. 介绍自己熟悉的渗透领域 2. 编程语言与开发能力 3. 实习工作内容与流程 …

PySide6 GUI 学习笔记——常用类及控件使用方法(地址类QUrl)

文章目录 地址类QUrl主要功能URL 格式介绍常见 scheme&#xff08;协议&#xff09;类型QUrl 类常用方法常用方法示例典型应用场景 地址类QUrl QUrl 是 PySide6.QtCore 模块中的一个类&#xff0c;用于处理和操作 URL&#xff08;统一资源定位符&#xff09;。它可以解析、构建…

任务23:创建天气信息大屏Django项目

任务描述 知识点&#xff1a; Django 重 点&#xff1a; Django创建项目Django视图函数Django路由Django静态文件Django渲染模板 内 容&#xff1a; 使用PyCharm创建大屏项目渲染大屏主页 任务指导 1. 使用PyCharm创建大屏项目。 创建weather项目配置虚拟环境创建ch…

数学分析——一致性(均匀性)和收敛

目录 1. 连续函数 1.1 连续函数的定义 1.2 连续函数的性质 1.2.1 性质一 1.2.2 性质二 1.2.3 性质三 1.2.4 性质四 2. 一致连续函数 2.1 一致连续函数的定义 2.2 一致连续性定理(小间距定理)(一致连续函数的另一种定义) 2.3 一致连续性判定法 2.4 连…

Flutter GridView网格组件

目录 常用属性 GridView使用配置 GridView.count使用 GridView.extent使用 GridView.count Container 实现列表 GridView.extent Container 实现列表 GridView.builder使用 GridView网格布局在实际项目中用的也是非常多的&#xff0c;当我们想让可以滚动的元素使用矩阵…

【深度学习】18. 生成模型:Variational Auto-Encoder(VAE)详解

Variational Auto-Encoder&#xff08;VAE&#xff09;详解 本节内容完整介绍 VAE 的模型结构、优化目标、重参数化技巧及其生成机制。 回顾&#xff1a;Autoencoder&#xff08;自编码器&#xff09; Autoencoder 是一种无监督学习模型&#xff0c;旨在从未标注的数据中学习压…

解决Window10上IP映射重启失效的问题

问题 在实际网络搭建过程中&#xff0c;大家有可能会遇到在局域网范围内&#xff0c;在自己本机上搭建一个网站或者应用时&#xff0c;其他设备通过本机的IP地址无法访问的问题,这个问题可以通过设置IP映射来解决&#xff0c;但是通过netsh interface命令设置的IP映射&#xf…

python h5py 读取mat文件的<HDF5 object reference> 问题

我用python加载matlab的mat文件 mat文件&#xff1a; 加载方式&#xff1a; mat_file h5py.File(base_dir str(N) _nodes_dataset_snr- str(snr) _M_ str(M) .mat, r) Signals mat_file["Signals"][()] Tp mat_file["Tp"][()] Tp_list mat_fil…

linux命令 systemctl 和 supervisord 区别及用法解读

目录 基础与背景服务管理范围配置文件和管理方式监控与日志依赖管理适用场景常用命令对照表实际应用场景举例优缺点对比小结参考链接 1. 基础与背景 systemctl 和 supervisord 都是用于管理和控制服务&#xff08;进程&#xff09;的工具&#xff0c;但它们在设计、使用场景和…

Spring Boot + MyBatis 实现的简单用户管理项目的完整目录结构示例

&#x1f4c1; 示例项目结构&#xff08;基于 Maven&#xff09; user-management/ ├── src/ │ ├── main/ │ │ ├── java/ │ │ │ └── com/example/usermanagement/ │ │ │ ├── controller/ │ │ │ │ └── UserC…

stm32 + ads1292心率检测报警设置上下限

这个项目是在做心率检测的时候一个小伙伴提出来的&#xff0c;今年五一的时候提出来的想法&#xff0c;五一假期的时候没时间&#xff0c;也没心情做这个&#xff0c;就把这个事情搁置了&#xff0c;在月中做工作计划的时候&#xff0c;就把这个小项目排进来了&#xff0c;五一…

项目练习:element ui 的icon放在button的右侧

文章目录 一、需求描述二、左侧实现三、右侧实现 一、需求描述 我们知道&#xff0c;element ui的button一般都会配置一个icon 这个icon默认是放在左侧的。 如何让它放在右侧了&#xff1f; 二、左侧实现 <el-buttontype"primary"plainicon"el-icon-d-arr…

性能诊断工具AWR配置策略与报告内容解析

AWR&#xff08;Automatic Workload Repository&#xff09;是 Oracle 数据库中的一个重要性能诊断工具。AWR 会按照固定的时间间隔自动收集数据库系统的性能统计信息。这些信息涵盖了数据库运行状态的方方面面&#xff0c;像SQL 执行情况、系统资源利用率、等待事件等。AWR抓取…

Tailwind CSS 实战,基于 Kooboo 构建 AI 对话框页面(三):实现暗黑模式主题切换

基于前两篇的内容&#xff0c;为页面添加主题切换功能&#xff0c;实现网站页面的暗黑模式&#xff1a; Tailwind css实战&#xff0c;基于Kooboo构建AI对话框页面&#xff08;一&#xff09;-CSDN博客 Tailwind css实战&#xff0c;基于Kooboo构建AI对话框页面&#xff08;…

MySQL 8.0 OCP 英文题库解析(十一)

Oracle 为庆祝 MySQL 30 周年&#xff0c;截止到 2025.07.31 之前。所有人均可以免费考取原价245美元的MySQL OCP 认证。 从今天开始&#xff0c;将英文题库免费公布出来&#xff0c;并进行解析&#xff0c;帮助大家在一个月之内轻松通过OCP认证。 本期公布试题91~100 试题91…

ADQ36-2通道2.5G,4通道5G采样PXIE

ADQ36是一款高端12位四通道灵活数据采集板&#xff0c;针对高通道数科学应用进行了优化。ADQ36具有以下特性: 4 / 2模拟输入通道每通道2.5 / 5 GSPS7gb/秒的持续数据传输速率两个外部触发器通用输入/输出&#xff08;GPIO&#xff09;ADQ36数字化仪包括固件FWDAQ ADQ36简介 特…

数字创新智慧园区建设及运维方案

该文档是 “数字创新智慧园区” 建设及运维方案,指出传统产业园区存在管理粗放等问题,“数字创新园区” 通过大数据、AI、物联网、云计算等数字化技术,旨在提升园区产业服务、运营管理水平,增强竞争力,实现绿色节能、高效管理等目标。建设内容包括智能设施、核心支撑平台、…

【科研绘图系列】R语言绘制森林图(forest plot)

禁止商业或二改转载,仅供自学使用,侵权必究,如需截取部分内容请后台联系作者! 文章目录 介绍加载R包数据下载导入数据数据预处理画图系统信息介绍 本文介绍使用R语言绘制森林图(forest plot)的方法。首先加载必要的R包(grid、forestploter、openxlsx、stringr),导入并预处…

SpringAI+DeepSeek大模型应用开发实战

内容来自黑马程序员 这里写目录标题 认识AI和大模型大模型应用开发模型部署方案对比模型部署-云服务模型部署-本地部署调用大模型什么是大模型应用传统应用和大模型应用大模型应用 大模型应用开发技术架构 SpringAI对话机器人快速入门会话日志会话记忆 认识AI和大模型 AI的发…