PostgreSQL 高负载 Load Average 暴涨 | BufferMapping LWLock 锁竞争完整排查优化实战

news2026/5/16 22:28:33

文章目录一、故障现场全景呈现1. 服务器整体资源异常top监控3. 磁盘IO详细监控4. 数据库内部等待事件定位5. 数据库原始内存参数配置二、相关技术概念说明三、根本原因分析四、解决方案与优化建议五、优化效果验证一、故障现场全景呈现本次故障发生在16GB内存的PostgreSQL数据库服务器核心表现为系统负载飙升、CPU满载结合top、vmstat、iostat三大系统监控工具及数据库内部等待事件形成完整故障链路精准定位问题根源。1. 服务器整体资源异常top监控执行top命令获取系统整体状态关键指标异常明显op-13:49:56 up137days,23:10,2users, load average:82.05,75.69,74.35Tasks:464total,30running,434sleeping,0stopped,0zombie %Cpu(s):89.7us,9.3sy,0.0ni,0.6id,0.1wa,0.0hi,0.2si,0.0st MiB Mem:15954.5total,250.1free,1457.2used,14247.1buff/cache MiB Swap:8192.0total,7892.5free,299.5used.12526.8avail Mem PIDUSERPR NI VIRT RES SHR S %CPU %MEM TIME COMMAND1455217postgres20019126161.2g1.1g R10.67.70:22.66 postgres1457456postgres2001759928768768751728R10.64.70:12.48 postgres1457863postgres20018781361.2g1.1g R10.37.50:20.52 postgres1446316postgres2001754100811572808976R10.05.02:00.04 postgres1457835postgres2001756072500896486136R10.03.10:34.81 postgres1467978postgres200189628412875279464R9.60.80:02.25 postgres1468383postgres2001742660557008554028S9.33.40:00.60 postgres1467989postgres200188394411195274200R9.00.70:02.10 postgres1427874postgres20018793401.1g1.1g R8.37.32:26.32 postgres1467990postgres200188393611183274076R8.30.70:02.09 postgres1468053postgres2001742628559984557076S8.03.40:01.48 postgres1468236postgres2001742584556476553640R8.03.40:00.88 postgres1468432postgres2001742588556912554112S8.03.40:00.29 postgres1468434postgres2001743160558856555948R8.03.40:00.30 postgres1468468postgres2001742568557184554356S8.03.40:00.26 postgres1468225postgres2001741516437524435456S7.62.70:00.85 postgres1468328postgres2001742584506188503388R7.63.10:00.43 postgres1468329postgres2001741260437312435296S7.62.70:00.42 postgres系统负载load average长期维持在74~82远超服务器8核CPU的合理负载正常负载≈CPU核心数系统严重过载。CPU用户态占用us高达89.7%空闲CPUid仅0.6%几乎所有CPU资源被数据库进程耗尽。大量postgres进程处于R运行状态进程排队竞争CPU资源壅塞严重。内存整体使用率不高但绝大多数内存被系统缓存buff/cache占用PostgreSQL自身共享缓存配置严重不足无法有效缓存热数据。Swap分区已使用299.5MB后续监控显示进一步攀升至538MB说明物理内存已出现紧张迹象。系统资源连续监控vmstat 1 2000执行vmstat 1 2000命令持续监控系统进程、内存、IO及CPU状态截取关键数据如下vmstat12000输出procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu----- r b swpdfreebuff cache si so bi boincs us syidwa st960303136254836122041468108810182441184002664720011833031362402281220414682896002276885518488985150001121303136247200122041468639600241652588754948515100680303136260732122041467592000203264601056948414200301303136255804122041467866400200858069746555851410011913031362405361221214680136001576612662763078712100115130313624484412220146851881601464109255685203841510068030313626105212220146851320010645649374867851500011813031362487601222014687728001872572589754848613100vmstat 分析:CPU执行队列r23~39远高于8核CPU的合理值8左右大量进程排队等待CPU是系统负载暴高的直接原因。阻塞进程b9-17看似偏高但结合wat值0%~1%可明确进程阻塞并非因硬盘IO缓慢而是因数据库内部锁竞争与后续数据库等待事件完全吻合。磁盘读bi瞬間冲高至28192说明数据库频繁从硬盘加载数据页缓存缺页现象严重。CPU用户态us96%~97%满载几乎所有CPU资源被PostgreSQL查询耗尽空闲CPUid趋近于0。Swap使用swpd538MB物理内存紧张进一步挤压数据库共享缓存的可用空间。3. 磁盘IO详细监控执行iostat -x 1 2000命令深入分析磁盘IO性能排除IO瓶颈iostat-x12000截取关键监控片段如下Linux5.15.0-91-generic(PCIPGDBPCAGLCY-P)04/23/2026 _x86_64_(8CPU)avg-cpu: %user %nice %system %iowait %steal %idle26.010.006.3820.180.0047.42Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s wrqm/s %wrqm w_await wareq-sz d/s dkB/s drqm/s %drqm d_await dareq-sz f/s f_await aqu-sz %util sda15.65215.139.6038.035.5913.758.02170.8133.9480.892.3121.300.004.350.0042.790.854302.850.000.000.116.92sdb1563.3919265.343.610.230.1412.3261.701299.263.375.184.2021.060.03181.880.0243.761.117236.250.000.000.112.81avg-cpu: %user %nice %system %iowait %steal %idle92.880.006.120.000.001.00Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s wrqm/s %wrqm w_await wareq-sz d/s dkB/s drqm/s %drqm d_await dareq-sz f/s f_await aqu-sz %util sda0.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.00sdb0.000.000.000.000.000.001.008.000.000.000.008.000.000.000.000.000.000.000.000.000.000.40avg-cpu: %user %nice %system %iowait %steal %idle91.490.006.630.000.001.88Device r/s rkB/s rrqm/s %rrqm r_await rareq-sz w/s wkB/s wrqm/s %wrqm w_await wareq-sz d/s dkB/s drqm/s %drqm d_await dareq-sz f/s f_await aqu-sz %util sda0.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.000.00sdb7.9279.210.000.007.3810.0020.79186.140.000.000.148.950.000.000.000.000.000.000.000.000.0611.09iostat 分析:磁盘使用率%utilsda最高6.92%sdb最高11.09%均远低于100%磁盘IO无饱和现象。读等待时间r_awaitsdb最高7.38mssda最高5.59ms均处于正常范围一般20ms磁盘读响应正常。%iowait仅第一组数据为20.18%后续两组均为0%结合磁盘%util可知短暂的iowait是因数据库集中读数据bi冲高并非磁盘性能不足且持续时间极短不构成IO瓶颈。核心佐证CPU满载us 91%~93%时磁盘IO处于低负载状态进一步说明系统瓶颈在CPU和数据库锁竞争而非磁盘IO。4. 数据库内部等待事件定位通过筛选高CPU进程PID查询PostgreSQL系统视图pg_stat_activity定位数据库内部阻塞原因执行命令ps-eopid,pcpu,pmem,cmd--sort-pcpu|greppostgres|head-n20|awk{print $1}|paste-sd,-|xargs-I{}psql-c SELECT pid, usename, now()-query_start duration,datname, state, wait_event,wait_event_type,substr(query,1,20) query FROM pg_stat_activity WHERE pid IN ({});查询结果关键片段pid|usename|duration|datname|state|wait_event|wait_event_type|query --------------------------------------------------------------------------------------------------------------------------1460734|pcishoeleg_5010|00:00:03.423004|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460732|pcishoeleg_5010|00:00:04.349096|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460843|pcishoeleg_5010|00:00:02.941622|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460865|pcishoeleg_5010|00:00:00.323677|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460828|pcishoeleg_5010|00:00:02.909692|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r |||||||1460834|pcishoeleg_5010|00:00:01.168062|pcishoeleg_5010|active|BufferMapping|LWLock|SELECT Sum(time_yiel1460774|pcishoeleg_5010|00:00:02.185091|pcishoeleg_5010|active|BufferMapping|LWLock|WITH fact AS(\r 核心现象大量postgres会话进程统一阻塞在wait_event_type LWLock、wait_event BufferMapping说明所有进程都在竞争同一把轻量级锁。阻塞会话执行的SQL均为报表类聚合查询包含WITH子查询、SUM汇总、DISTINCT去重等需要扫描大量数据页的操作。5. 数据库原始内存参数配置系统实际内存状况free-mtotal usedfreeshared buff/cache available Mem:159545111836217152598886Swap:81911808011数据库内存参数postgres#show shared_buffers;shared_buffers196608#1.5GBpostgres#show effective_cache_size;effective_cache_size524288# 4G两个参数均配置失当shared_buffers 严重偏低导致频繁缓存置换effective_cache_size 低估导致优化器选择次优执行计划两者叠加共同放大了 BufferMapping LWLock 的争用强度。二、相关技术概念说明LWLock 轻量锁LWLockLightweight Lock是 PostgreSQL 内核自行实现的内存级细粒度锁机制与事务层面的表锁、行锁完全独立专门用于保护数据库内部的共享内存数据结构。整个数据库内部有许多把不同用途的 LWLock例如 WAL 写入锁、Clog 锁、Buffer Content 锁等BufferMapping LWLock 只是众多 LWLock 实例中的一把具体的锁专门用来保护 Shared Buffers 的全局哈希表LWLock机制 ↓ BufferMapping LWLock具体实例其核心特点是仅支持共享读Shared 和独占写Exclusive 两种模式加锁与释放均在内存层面完成开销极低、速度极快不涉及任何磁盘 I/O 操作BufferMapping 缓存映射锁PostgreSQL 的共享缓冲池Shared Buffers依赖一张全局哈希表Buffer Tag Map 来维护磁盘数据页与内存缓冲区块之间的映射关系。所有涉及缓冲区的操作——包括数据页加载入内存、缓冲区命中查找、缓冲区淘汰置换——都必须先获取这把全局 BufferMapping LWLock才能对哈希表进行读写。本次等待事件的本质在高并发场景下大量进程同时竞争同一把全局锁导致大量并发请求 ↓ 全局 BufferMapping LWLock 争用 ↓ 请求被迫串行化排队 ↓ CPU 运行队列堆积 → 系统负载飙升 → 所有查询延迟上升三、根本原因分析核心根本原因shared_buffers 配置严重不足本次故障的根源在于内存配置与实际业务负载严重不匹配。服务器拥有 16GB 物理内存但 shared_buffers 仅配置了 1.5GB导致热点数据无法充分驻留内存。当报表类大查询持续扫描大量冷数据页时缓冲区容量不足以容纳所需数据触发频繁的缺页与缓存置换。每一次置换都必须反复操作全局 Buffer Tag Map进而引发剧烈的 BufferMapping LWLock 争用最终导致全局串行化排队。业务触发原因高并发报表查询叠加主库同时并发执行大量包含 WITH 临时表、SUM 聚合、DISTINCT 的报表 SQL每条查询均需扫描大量物理数据页大幅放大了缓存置换频率进一步加剧了锁排队拥塞。辅助原因优化器缓存预估参数不合理effective_cache_size 配置过小导致 PostgreSQL 查询优化器低估可用内存资源在执行计划选择上倾向于全表顺序扫描而非索引扫描读取的数据页数量持续暴增恶化了缓存压力。系统层面辅助因素操作系统内存挤压操作系统占用了绝大部分内存作为系统缓存数据库可用内存空间被进一步压缩与 shared_buffers 配置不足形成叠加效应共同恶化了缓存不足的问题。shared_buffers 严重不足 ↓ 热点数据无法驻留内存频繁缺页 ↓ 缓存置换反复操作全局 Buffer Tag Map ↓ BufferMapping LWLock 高度争用 ↓ 大量并发报表查询叠加业务触发 effective_cache_size 低估导致全表扫描放大效应操作系统内存挤压辅助恶化 ↓ 全局串行化排队 → CPU 队列堆积 → 负载飙升 → 所有查询延迟上升四、解决方案与优化建议shared_buffers 调整这是本次故障的根本修复点建议调整为物理内存的 25%参数调整前调整后预期效果shared_buffers1.5G4G热点数据充分驻留内存缓存置换频率大幅下降effective_cache_size4G10G优化器倾向选择索引扫描减少全表扫描2.SQL优化使用pg_profile产生报告并进行分析如何使用pg_profile,请参考这篇文章–使用 pg_profile 在 Postgres 中生成性能报告主要关注Top SQL by execution time,截图如下主要怎对红框中top4的SQL进行优化添加了合适的索引过程略五、优化效果验证调整shared_buffers与effective_cache_size后LWLock、BufferMapping消失针对上图中红框中的高频执行的4条SQL,添加合适的索引后cpu负载开始大幅下降

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2559818.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！