线上 Linux 环境 MySQL 磁盘 IO 高负载深度排查与性能优化实战

news2025/5/23 8:07:52

目录

一、线上告警

二、问题诊断

1. 系统层面排查

2. 数据库层面分析

三、参数调优

1. sync_binlog 参数优化

2. innodb_flush_log_at_trx_commit 参数调整

四、其他优化建议

1. 日志文件位置调整

2. 生产环境核心参数配置模板

3. 突发 IO 高负载应急响应方案

五、风险提示

六、总结


一、线上告警

        某一天,生产环境监控系统突然报警:MySQL 磁盘 IOPS 持续超过 15000,平均响应时间突破 500ms,慢查询数量大量增加。登录数据库服务器发现:

  • 磁盘利用率长期维持在 98% 以上
  • iostat -x 1显示%util持续 100%
  • MySQL 进程 CPU 使用率达 90%,但大部分时间处于iowait状态

二、问题诊断

1. 系统层面排查

# 查看系统整体IO情况
$ iostat -x 1 10
Linux 5.4.0-150-generic (mysql-prod-01)  03/22/2025  _x86_64_  (32 CPU)

avg-cpu:  %user   %nice %system %iowait  %steal   %idle
           7.2    0.00    4.5    12.3     0.0    76.0

Device:         rrqm/s   wrqm/s     r/s     w/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await r_await w_await  svctm  %util
sda               0.0      0.0     0.0  14828.0      0.0  245440.0     33.1      7.5     0.5     0.0     0.5    0.0  99.8
sdb               0.0   4567.0   230.0   2800.0   18400.0  224000.0    152.8     12.5     4.1     2.8     4.2    0.3  99.9

# 监控MySQL进程IO情况
$ pidstat -d 1
Linux 5.4.0-150-generic (mysql-prod-01)  03/22/2025  _x86_64_  (32 CPU)

15:30:01      UID       PID   kB_rd/s   kB_wr/s kB_ccwr/s  Command
15:30:02        0     12345      0.00  245760.00      0.00  mysqld

# 分析IO请求分布
$ iotop -o
Total DISK READ :       0.00 B/s | Total DISK WRITE : 240.00 M/s
Actual DISK READ:       0.00 B/s | Actual DISK WRITE: 240.00 M/s
  TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN     IO>    COMMAND
12345 be/4  mysql       0.00 B/s 240.00 M/s  0.00 % 99.99 % mysqld --defaults-file=/etc/mysql/my.cnf

通过上述命令发现:

  • MySQL 进程(PID 12345)占用了 92% 的磁盘写 IO
  • 大部分 IO 集中在/var/lib/mysql/ib_logfile0/var/lib/mysql/mysql-bin.000001文件

2. 数据库层面分析

-- 查看InnoDB日志等待情况
mysql> SHOW ENGINE INNODB STATUS\G
*************************** 1. row ***************************
  Type: InnoDB
  Name: 
Status: 
=====================================
2025-03-22 15:35:23 0x7f8a1c000700 INNODB MONITOR OUTPUT
=====================================
[...]
--------
FILE I/O
--------
I/O thread 0 state: waiting for completed aio requests (insert buffer thread)
I/O thread 1 state: waiting for completed aio requests (log thread)
Pending normal aio reads: [0, 0, 0, 0] , aio writes: [0, 0, 0, 0] ,
 ibuf aio reads: 0, log i/o's: 0, sync i/o's: 0
Pending flushes (fsync) log: 0; buffer pool: 0
288334 OS file reads, 1234567 OS file writes, 876543 OS fsyncs
0.00 reads/s, 0 avg bytes/read, 245.00 writes/s, 120.00 fsyncs/s
[...]

-- 分析慢查询日志
$ pt-query-digest /var/log/mysql/slow.log > slow_query_report.txt

关键发现:

  • InnoDB 日志等待事件占比达 68%
  • 大量简单 INSERT 语句执行时间超过 200ms
  • binlog 写入等待成为性能瓶颈

三、参数调优

1. sync_binlog 参数优化

原配置

mysql> SHOW VARIABLES LIKE '%sync_binlog%';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| sync_binlog   | 1     |
+---------------+-------+
1 row in set (0.00 sec)

    sync_binlog=1 意味着每次事务提交都会强制将 binlog 写入磁盘,这是导致高 IO 的主要原因。在高并发写入场景下,这种配置会严重影响性能。

优化措施

-- 临时调整(立即生效)
mysql> SET GLOBAL sync_binlog=1000;
Query OK, 0 rows affected (0.00 sec)

-- 验证修改结果
mysql> SHOW VARIABLES LIKE '%sync_binlog%';
+---------------+-------+
| Variable_name | Value |
+---------------+-------+
| sync_binlog   | 1000  |
+---------------+-------+
1 row in set (0.00 sec)

-- 持久化配置(修改my.cnf)
$ sudo vi /etc/mysql/my.cnf
[mysqld]
sync_binlog=1000

-- 重启MySQL服务使配置永久生效
$ sudo systemctl restart mysql

调整后效果:

  • 磁盘 IOPS 从 15000 降至 8000
  • 写入事务平均响应时间从 520ms 降至 85ms

2. innodb_flush_log_at_trx_commit 参数调整

原配置

mysql> SHOW VARIABLES LIKE '%innodb_flush_log%';
+--------------------------------+-------+
| Variable_name                  | Value |
+--------------------------------+-------+
| innodb_flush_log_at_trx_commit | 1     |
+--------------------------------+-------+
1 row in set (0.00 sec)

    innodb_flush_log_at_trx_commit=1 表示每次事务提交都要将日志写入磁盘,这进一步加重了 IO 负担。

优化措施

-- 临时调整
mysql> SET GLOBAL innodb_flush_log_at_trx_commit=2;
Query OK, 0 rows affected (0.00 sec)

-- 验证修改结果
mysql> SHOW VARIABLES LIKE '%innodb_flush_log%';
+--------------------------------+-------+
| Variable_name                  | Value |
+--------------------------------+-------+
| innodb_flush_log_at_timeout    | 1     |
| innodb_flush_log_at_trx_commit | 2     |
+--------------------------------+-------+
2 rows in set (0.00 sec)

-- 持久化配置
$ sudo vi /etc/mysql/my.cnf
[mysqld]
innodb_flush_log_at_trx_commit=2

-- 重启MySQL服务
$ sudo systemctl restart mysql

调整后效果:

  • 磁盘 IOPS 进一步降至 5500
  • 写入吞吐量提升 42%

四、其他优化建议

1. 日志文件位置调整

将 InnoDB 日志文件和 binlog 文件移动到专用 SSD 磁盘:

# 创建新的日志目录
$ sudo mkdir -p /data/mysql/logs /data/mysql/binlog
$ sudo chown -R mysql:mysql /data/mysql

# 修改my.cnf
$ sudo vi /etc/mysql/my.cnf
[mysqld]
innodb_log_file_size = 512M
innodb_log_files_in_group = 2
innodb_log_group_home_dir = /data/mysql/logs
log-bin = /data/mysql/binlog/mysql-bin

# 停止MySQL服务
$ sudo systemctl stop mysql

# 复制现有日志文件
$ sudo cp -a /var/lib/mysql/ib_logfile* /data/mysql/logs/
$ sudo cp -a /var/lib/mysql/mysql-bin.* /data/mysql/binlog/

# 修改文件权限
$ sudo chown -R mysql:mysql /data/mysql/logs
$ sudo chown -R mysql:mysql /data/mysql/binlog

# 启动MySQL服务
$ sudo systemctl start mysql

# 验证日志文件位置
$ sudo lsof -p $(pgrep mysqld) | grep -E 'ib_logfile|mysql-bin'
mysqld  12345  mysql  mem       REG       8,17  536870912  123456789 /data/mysql/logs/ib_logfile0
mysqld  12345  mysql  mem       REG       8,17  536870912  123456790 /data/mysql/logs/ib_logfile1
mysqld  12345  mysql    4u      REG       8,17      12345  123456791 /data/mysql/binlog/mysql-bin.000001

2. 生产环境核心参数配置模板

[mysqld]
# 事务日志同步策略
sync_binlog = 1000                # 每1000次提交刷盘(平衡性能与可靠性)
innodb_flush_log_at_trx_commit = 2 # 每秒刷盘一次(减少redo日志IO)

# 内存与日志配置
innodb_buffer_pool_size = 8G      # 缓冲池大小(建议为物理内存50-70%)
innodb_log_file_size = 512M       # 单个日志文件大小(根据写入量调整)
innodb_log_files_in_group = 2     # 日志文件数量
innodb_io_capacity = 2000         # IO能力上限(SSD建议2000-5000)
innodb_write_io_threads = 16      # 异步写线程数
innodb_read_io_threads = 16       # 异步读线程数

3. 突发 IO 高负载应急响应方案

-- 突发IO高负载时临时降低同步频率
SET GLOBAL sync_binlog = 10000;
SET GLOBAL innodb_flush_log_at_trx_commit = 0;

-- 查看当前线程状态
SHOW FULL PROCESSLIST;

-- 终止长时间运行的查询
KILL 12345;

五、风险提示

  1. sync_binlog=1000意味着可能丢失最多 1000 个事务的 binlog 数据
  2. innodb_flush_log_at_trx_commit=2可能导致系统崩溃时丢失 1 秒内的事务
  3. 建议在实施前进行压测验证,确保业务可接受数据丢失风险

六、总结

        MySQL 磁盘 IO 高负载是生产环境常见问题,通过合理调整sync_binloginnodb_flush_log_at_trx_commit参数,结合架构优化措施,可以显著提升数据库性能。本次优化实践证明:

  • 合理的参数调优可带来 60% 以上的 IO 性能提升
  • 批量操作优化能有效减少日志写入次数

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2383745.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python 包管理工具核心指令uvx解析

uvx 是 Python 包管理工具 uv 的重要组成部分,主要用于在隔离环境中快速运行 Python 命令行工具或脚本,无需永久安装工具包。以下是其核心功能和使用场景的详细解析: 一、uvx 的定位与核心功能 工具执行器的角色 uvx 是 uv tool run 的别名&a…

苍穹外卖05 Redis常用命令在Java中操作Redis_Spring Data Redis使用方式店铺营业状态设置

2-8 Redis常用命令 02 02-Redis入门 ctrlc :快捷结束进程 配置密码: 以后再启动客户端的时候就需要进行密码的配置了。使用-a 在图形化界面中创建链接: 启动成功了。 03 03-Redis常用数据类型 04 04-Redis常用命令_字符串操作命令 05 05-Redis常用命令…

AI工程师系列——面向copilot编程

前言 ​ 笔者已经使用copilot协助开发有一段时间了,但一直没有总结一个协助代码开发的案例,特别是怎么问copilot,按照什么顺序问,哪些方面可以高效的生成需要的代码,这一次,笔者以IP解析需求为例,沉淀一个实践案例,供大家参考 当然,其实也不局限于copilot本身,类似…

【竖排繁体识别】如何将竖排繁体图片文字识别转横排繁体,转横排简体导出文本文档,基于WPF和腾讯OCR的实现方案

一、应用场景 在古籍数字化、繁体文档处理、两岸三地文化交流等场景中,经常需要将竖排繁体文字转换为横排文字。例如: 古籍研究人员需要将竖排繁体文献转换为现代横排简体格式以便编辑和研究出版行业需要将繁体竖排排版转换为简体横排格式两岸三地交流中需要将繁体竖排文档转…

NFS服务器实验

实验要求 架设一台NFS服务器,并按照以下要求配置 1、开放/nfs/shared目录,供所有用户查询资料 2、开放/nfs/upload目录,为192.168.xxx.0/24网段主机可以上传目录,并将所有用户及所属的组映射为nfs-upload,其UID和GID均为210 3…

Java进阶之新特性

Java新特性 参考 官网:https://docs.oracle.com/en/ JDK5新特性 1.自动装箱与拆箱 自动装箱的过程:每当需要一种类型的对象时,这种基本类型就自动地封装到与它相同类型的包装类中。 自动拆箱的过程:每当需要一个值时&#xf…

AIGC工具平台-卡通图片2D转绘3D

本模块是一款智能化的2D转3D图像处理工具,能够将卡通风格的2D图片自动转换为高质量3D渲染模型,让平面图像焕发立体生机。借助先进的AI深度学习算法,该工具可以精准识别角色轮廓、光影关系、材质纹理等关键元素,自动生成逼真的3D形…

Java虚拟机 -方法调用

方法调用 方法调用静态链接动态链接案例虚方法与非虚方法虚方法(Virtual Method)非虚方法(Non-Virtual Method) 方法返回地址 方法调用 我们编写Java程序的时候,我们自己写的类通常不仅仅是调用自己本类的方法。调用别…

JMeter JDBC请求Query Type实测(金仓数据库版)

文章目的 在实际性能测试中,JMeter的JDBC Request组件常用于模拟数据库操作。但许多用户对Query Type参数的具体行为存在疑惑。 本文将以金仓数据库KingbaseES为例,通过实测验证每种Query Type的行为,帮助用户明确其使用场景和限制&#xff…

【内部教程】ISOLAR-AB配置以太网栈|超详细实战版

目录 往期推荐 缩写与定义 关于系统描述(System Description) 1.1 EthCommunicationController 1.2 EthCommunicationConnector 1.2.1 Ports(端口) 1.3 EthPhysicalChannel(以太网物理通道) 1.3.1…

Nginx 核心功能

目录 一:正向代理 1:编译安装 Nginx (1)安装支持软件 (2)创建运行用户、组和日志目录 (3)编译安装 Nginx (4)添加 Nginx 系统服务 2:配置正…

【Canvas与图标】圆角方块蓝星CSS图标

【成图】 120*120的png图标 大小图&#xff1a; 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>圆角方块蓝星CSS Draft1</…

机器学习 day05

文章目录 前言一、模型选择与调优1.交叉验证2.超参数搜索 前言 通过今天的学习&#xff0c;我掌握了机器学习中模型的选择与调优&#xff0c;包括交叉验证&#xff0c;超参数搜索的概念与基本用法。 一、模型选择与调优 模型的选择与调优有许多方法&#xff0c;这里主要介绍较…

C#新建打开文件对话框

这是Winform直接封装好的打开文件对话框 using System.Windows.Forms; public static string OpenFile(string path) {OpenFileDialog openFileDialog new OpenFileDialog();// 设置对话框属性openFileDialog.Title "选择文件";openFileDialog.InitialDirectory …

汇川PLC通过开疆智能Profinet转ModbusTCP网关读取西门子PLC数据案例

本案例是客户通过开疆智能Profient转ModbusTCP网关连接汇川PLC的配置案例 Modbus TCP主站即Modbus TCP客户端&#xff0c;Modbus TCP主站最多支持同时与31个Modbus TCP从站 。&#xff08;Modbus TCP服务器&#xff09;进行通信。 第一步设置PLC IP地址&#xff1b; 默认PLC…

零基础入门:MinerU 和 PyTorch、CUDA的关系

&#x1f4a1;一句话总结&#xff1a;MinerU 是一个用 PyTorch 跑模型的程序&#xff0c;PyTorch 支持多种加速方式&#xff08;如 CUDA、MPS&#xff09;&#xff0c;让它跑得快就需要依赖这些加速工具。 PyTorch官网安装教程&#xff08;可根据系统情况选择不同版本&#xf…

借助IEDA ,Git版本管理工具快速入门

01 引言 一直使用SVN作为版本管理工具&#xff0c;直到公司新来的一批同事&#xff0c;看到我们使用的SVN都纷纷吐槽&#xff0c;什么年代了&#xff0c;还使用SVN。聊下来&#xff0c;才知道人家公司早早就将SVN切成了Git工具&#xff0c;并吐槽SVN的各种弊端。 既然新的技术…

三维空间,毫秒即达:RTMP|RTSP播放器在Unity中的落地实现

有人问我&#xff1a;在 Unity 里做超低延迟的直播播放&#xff0c;是什么感觉&#xff1f; 我说&#xff0c;是把一帧帧流动的时间&#xff0c;嵌进一个三维的空间里。 它不属于现在&#xff0c;也不属于过去。 它属于“实时”——属于那一秒内刚刚发生&#xff0c;却已被你看…

ubuntu 搭建FTP服务,接收部标机历史音视频上报服务器

1.安装vsftpd 1.1.安装命令 sudo apt update sudo apt install vsftpd 1.2.备份原始配置文件 sudo cp /etc/vsftpd.conf /etc/vsftpd.conf.bak 1.3.配置 vsftpd 编辑配置文件 /etc/vsftpd.conf&#xff1a; sudo vim /etc/vsftpd.conf 将以下参数修改为对应值&#xff…

一、内存调优

一、内存调优 什么是内存泄漏 监控Java内存的常用工具 内存泄露的常见场景 内存泄露的解决方案 内存泄露与内存溢出的区别 内存泄露&#xff1a;在Java中如果不再使用一个对象&#xff0c;但是该对象依然在GC ROOT的引用链上&#xff0c;这个对象就不会被垃圾回收器回收&…