PostgreSQL 高负载 Load Average 暴涨 | BufferMapping LWLock 锁竞争 完整排查优化实战

news2026/5/16 22:28:33
文章目录一、故障现场全景呈现1. 服务器整体资源异常top监控3. 磁盘IO详细监控4. 数据库内部等待事件定位5. 数据库原始内存参数配置二、相关技术概念说明三、根本原因分析四、解决方案与优化建议五、优化效果验证一、故障现场全景呈现本次故障发生在16GB内存的PostgreSQL数据库服务器核心表现为系统负载飙升、CPU满载结合top、vmstat、iostat三大系统监控工具及数据库内部等待事件形成完整故障链路精准定位问题根源。1. 服务器整体资源异常top监控执行top命令获取系统整体状态关键指标异常明显op-13:49:56 up137days,23:10,2users, load average:82.05,75.69,74.35Tasks:464total,30running,434sleeping,0stopped,0zombie %Cpu(s):89.7us,9.3sy,0.0ni,0.6id,0.1wa,0.0hi,0.2si,0.0st MiB Mem:15954.5total,250.1free,1457.2used,14247.1buff/cache MiB Swap:8192.0total,7892.5free,299.5used.12526.8avail Mem PIDUSERPR NI VIRT RES SHR S %CPU %MEM TIME COMMAND1455217postgres20019126161.2g1.1g R10.67.70:22.66 postgres1457456postgres2001759928768768751728R10.64.70:12.48 postgres1457863postgres20018781361.2g1.1g R10.37.50:20.52 postgres1446316postgres2001754100811572808976R10.05.02:00.04 postgres1457835postgres2001756072500896486136R10.03.10:34.81 postgres1467978postgres200189628412875279464R9.60.80:02.25 postgres1468383postgres2001742660557008554028S9.33.40:00.60 postgres1467989postgres200188394411195274200R9.00.70:02.10 postgres1427874postgres20018793401.1g1.1g R8.37.32:26.32 postgres1467990postgres200188393611183274076R8.30.70:02.09 postgres1468053postgres2001742628559984557076S8.03.40:01.48 postgres1468236postgres2001742584556476553640R8.03.40:00.88 postgres1468432postgres2001742588556912554112S8.03.40:00.29 postgres1468434postgres2001743160558856555948R8.03.40:00.30 postgres1468468postgres2001742568557184554356S8.03.40:00.26 postgres1468225postgres2001741516437524435456S7.62.70:00.85 postgres1468328postgres2001742584506188503388R7.63.10:00.43 postgres1468329postgres2001741260437312435296S7.62.70:00.42 postgres系统负载load average长期维持在74~82远超服务器8核CPU的合理负载正常负载≈CPU核心数系统严重过载。CPU用户态占用us高达89.7%空闲CPUid仅0.6%几乎所有CPU资源被数据库进程耗尽。大量postgres进程处于R运行状态进程排队竞争CPU资源壅塞严重。内存整体使用率不高但绝大多数内存被系统缓存buff/cache占用PostgreSQL自身共享缓存配置严重不足无法有效缓存热数据。Swap分区已使用299.5MB后续监控显示进一步攀升至538MB说明物理内存已出现紧张迹象。系统资源连续监控vmstat 1 2000执行vmstat 1 2000命令持续监控系统进程、内存、IO及CPU状态截取关键数据如下vmstat12000输出procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpdfreebuff cache si so bi boincs us syidwa st960303136254836122041468108810182441184002664720011833031362402281220414682896002276885518488985150001121303136247200122041468639600241652588754948515100680303136260732122041467592000203264601056948414200301303136255804122041467866400200858069746555851410011913031362405361221214680136001576612662763078712100115130313624484412220146851881601464109255685203841510068030313626105212220146851320010645649374867851500011813031362487601222014687728001872572589754848613100vmstat 分析:CPU执行队列r23~39远高于8核CPU的合理值8左右大量进程排队等待CPU是系统负载暴高的直接原因。阻塞进程b9-17看似偏高但结合wat值0%~1%可明确进程阻塞并非因硬盘IO缓慢而是因数据库内部锁竞争与后续数据库等待事件完全吻合。磁盘读bi瞬間冲高至28192说明数据库频繁从硬盘加载数据页缓存缺页现象严重。CPU用户态us96%~97%满载几乎所有CPU资源被PostgreSQL查询耗尽空闲CPUid趋近于0。Swap使用swpd538MB物理内存紧张进一步挤压数据库共享缓存的可用空间。3. 磁盘IO详细监控执行iostat -x 1 2000命令深入分析磁盘IO性能排除IO瓶颈iostat-x12000截取关键监控片段如下Linux5.15.0-91-generic(PCIPGDBPCAGLCY-P)04/23/2026 _x86_64_(8CPU)avg-cpu: %user %nice %system %iowait %steal %idle26.010.006.3820.180.0047.42Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s wrqm/s %wrqm w_await wareq-sz d/s dkB/s drqm/s %drqm d_await dareq-sz f/s f_await aqu-sz %util sda15.65215.139.6038.035.5913.758.02170.8133.9480.892.3121.300.004.350.0042.790.854302.850.000.000.116.92sdb1563.3919265.343.610.230.1412.3261.701299.263.375.184.2021.060.03181.880.0243.761.117236.250.000.000.112.81avg-cpu: %user %nice %system %iowait %steal %idle92.880.006.120.000.001.00Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s wrqm/s %wrqm w_await wareq-sz d/s dkB/s drqm/s %drqm d_await dareq-sz f/s f_await aqu-sz %util sda0.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.00sdb0.000.000.000.000.000.001.008.000.000.000.008.000.000.000.000.000.000.000.000.000.000.40avg-cpu: %user %nice %system %iowait %steal %idle91.490.006.630.000.001.88Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s wrqm/s %wrqm w_await wareq-sz d/s dkB/s drqm/s %drqm d_await dareq-sz f/s f_await aqu-sz %util sda0.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.00sdb7.9279.210.000.007.3810.0020.79186.140.000.000.148.950.000.000.000.000.000.000.000.000.0611.09iostat 分析:磁盘使用率%utilsda最高6.92%sdb最高11.09%均远低于100%磁盘IO无饱和现象。读等待时间r_awaitsdb最高7.38mssda最高5.59ms均处于正常范围一般20ms磁盘读响应正常。%iowait仅第一组数据为20.18%后续两组均为0%结合磁盘%util可知短暂的iowait是因数据库集中读数据bi冲高并非磁盘性能不足且持续时间极短不构成IO瓶颈。核心佐证CPU满载us 91%~93%时磁盘IO处于低负载状态进一步说明系统瓶颈在CPU和数据库锁竞争而非磁盘IO。4. 数据库内部等待事件定位通过筛选高CPU进程PID查询PostgreSQL系统视图pg_stat_activity定位数据库内部阻塞原因执行命令ps-eopid,pcpu,pmem,cmd--sort-pcpu|greppostgres|head-n20|awk{print $1}|paste-sd,-|xargs-I{}psql-c SELECT pid, usename, now()-query_start duration,datname, state, wait_event,wait_event_type,substr(query,1,20) query FROM pg_stat_activity WHERE pid IN ({});查询结果关键片段pid|usename|duration|datname|state|wait_event|wait_event_type|query --------------------------------------------------------------------------------------------------------------------------1460734|pcishoeleg_5010|00:00:03.423004|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460732|pcishoeleg_5010|00:00:04.349096|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460843|pcishoeleg_5010|00:00:02.941622|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460865|pcishoeleg_5010|00:00:00.323677|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460828|pcishoeleg_5010|00:00:02.909692|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460834|pcishoeleg_5010|00:00:01.168062|pcishoeleg_5010|active|BufferMapping|LWLock|SELECT Sum(time_yiel1460774|pcishoeleg_5010|00:00:02.185091|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r 核心现象大量postgres会话进程统一阻塞在wait_event_type LWLock、wait_event BufferMapping说明所有进程都在竞争同一把轻量级锁。阻塞会话执行的SQL均为报表类聚合查询包含WITH子查询、SUM汇总、DISTINCT去重等需要扫描大量数据页的操作。5. 数据库原始内存参数配置系统实际内存状况free-mtotal usedfreeshared buff/cache available Mem:159545111836217152598886Swap:81911808011数据库内存参数postgres#show shared_buffers;shared_buffers196608#1.5GBpostgres#show effective_cache_size;effective_cache_size524288# 4G两个参数均配置失当shared_buffers 严重偏低导致频繁缓存置换effective_cache_size 低估导致优化器选择次优执行计划两者叠加共同放大了 BufferMapping LWLock 的争用强度。二、相关技术概念说明LWLock 轻量锁LWLockLightweight Lock是 PostgreSQL 内核自行实现的内存级细粒度锁机制与事务层面的表锁、行锁完全独立专门用于保护数据库内部的共享内存数据结构。整个数据库内部有许多把不同用途的 LWLock例如 WAL 写入锁、Clog 锁、Buffer Content 锁等BufferMapping LWLock 只是众多 LWLock 实例中的一把具体的锁专门用来保护 Shared Buffers 的全局哈希表LWLock机制 ↓ BufferMapping LWLock具体实例其核心特点是仅支持共享读Shared 和 独占写Exclusive 两种模式加锁与释放均在内存层面完成开销极低、速度极快不涉及任何磁盘 I/O 操作BufferMapping 缓存映射锁PostgreSQL 的共享缓冲池Shared Buffers依赖一张全局哈希表Buffer Tag Map 来维护磁盘数据页与内存缓冲区块之间的映射关系。所有涉及缓冲区的操作——包括数据页加载入内存、缓冲区命中查找、缓冲区淘汰置换——都必须先获取这把全局 BufferMapping LWLock才能对哈希表进行读写。本次等待事件的本质在高并发场景下大量进程同时竞争同一把全局锁导致大量并发请求 ↓ 全局 BufferMapping LWLock 争用 ↓ 请求被迫串行化排队 ↓ CPU 运行队列堆积 → 系统负载飙升 → 所有查询延迟上升三、根本原因分析核心根本原因shared_buffers 配置严重不足本次故障的根源在于内存配置与实际业务负载严重不匹配。服务器拥有 16GB 物理内存但 shared_buffers 仅配置了 1.5GB导致热点数据无法充分驻留内存。当报表类大查询持续扫描大量冷数据页时缓冲区容量不足以容纳所需数据触发频繁的缺页与缓存置换。每一次置换都必须反复操作全局 Buffer Tag Map进而引发剧烈的 BufferMapping LWLock 争用最终导致全局串行化排队。业务触发原因高并发报表查询叠加主库同时并发执行大量包含 WITH 临时表、SUM 聚合、DISTINCT 的报表 SQL每条查询均需扫描大量物理数据页大幅放大了缓存置换频率进一步加剧了锁排队拥塞。辅助原因优化器缓存预估参数不合理effective_cache_size 配置过小导致 PostgreSQL 查询优化器低估可用内存资源在执行计划选择上倾向于全表顺序扫描而非索引扫描读取的数据页数量持续暴增恶化了缓存压力。系统层面辅助因素操作系统内存挤压操作系统占用了绝大部分内存作为系统缓存数据库可用内存空间被进一步压缩与 shared_buffers 配置不足形成叠加效应共同恶化了缓存不足的问题。shared_buffers 严重不足 ↓ 热点数据无法驻留内存频繁缺页 ↓ 缓存置换反复操作全局 Buffer Tag Map ↓ BufferMapping LWLock 高度争用 ↓ 大量并发报表查询叠加业务触发 effective_cache_size 低估导致全表扫描放大效应 操作系统内存挤压辅助恶化 ↓ 全局串行化排队 → CPU 队列堆积 → 负载飙升 → 所有查询延迟上升四、解决方案与优化建议shared_buffers 调整这是本次故障的根本修复点建议调整为物理内存的 25%参数调整前调整后预期效果shared_buffers1.5G4G热点数据充分驻留内存缓存置换频率大幅下降effective_cache_size4G10G优化器倾向选择索引扫描减少全表扫描2.SQL优化使用pg_profile产生报告并进行分析如何使用pg_profile,请参考这篇文章–使用 pg_profile 在 Postgres 中生成性能报告主要关注Top SQL by execution time,截图如下主要怎对红框中top4的SQL进行优化添加了合适的索引过程略五、优化效果验证调整shared_buffers与effective_cache_size后LWLock、BufferMapping消失针对上图中红框中的高频执行的4条SQL,添加合适的索引后cpu负载开始大幅下降

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2559818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…