解决Ceph 14.2.22 Nautilus版本监视器慢操作问题的实践指南

news2025/5/12 0:36:52

解决Ceph Nautilus版本监视器慢操作问题的实践指南

    • 问题背景
    • 问题现象
    • 问题分析
      • 1. 确认监视器状态
      • 2. 检查慢操作详情
      • 3. 深入分析操作状态
    • 问题原因
    • 解决方案
      • 立即解决方法
    • 总结

  • 在生产环境中执行任何操作前,请确保已备份重要数据,并在测试环境中验证解决方案

问题背景

在管理大型Ceph存储集群时,经常会遇到各种健康警告。Ceph集群(版本14.2.22 Nautilus)出现了监视器慢操作的警告。

问题现象

通过ceph -s命令,我们发现集群处于HEALTH_WARN状态,显示有多个慢操作:

health: HEALTH_WARN
        46 slow ops, oldest one blocked for 1943 sec, daemons [mon.ceph01,mon.ceph02,mon.ceph03,mon.ceph05,mon.ceph06] have slow ops.

更详细的健康状态显示:

ceph health detail
HEALTH_WARN 46 slow ops, oldest one blocked for 1958 sec, daemons [mon.ceph01,mon.ceph02,mon.ceph03,mon.ceph05,mon.ceph06] have slow ops.
SLOW_OPS 46 slow ops, oldest one blocked for 1958 sec, daemons [mon.ceph01,mon.ceph02,mon.ceph03,mon.ceph05,mon.ceph06] have slow ops.

问题分析

1. 确认监视器状态

首先,检查了监视器的状态,确认了Leader是ceph00

# ceph mon stat
leader 0 ceph00, quorum 0,1,2,3,4,5,6 ceph00,ceph01,ceph03,ceph04,ceph05,ceph06,ceph02

2. 检查慢操作详情

通过查看监视器日志,发现慢操作的具体类型:

ssh ceph01 "grep -i slow /var/log/ceph/ceph-mon.ceph01.log | tail -n 100"
mon.ceph01@1(peon) e4 get_health_metrics reporting 13 slow ops, oldest is osd_alive(want up_thru 15179 have 15180)

这表明慢操作是OSD发送的osd_alive请求,希望更新其up_thru值。

3. 深入分析操作状态

使用ceph daemon mon.ceph01 ops命令查看操作详情,发现操作卡在了osdmap:wait_for_readable阶段:

{
    "description": "osd_alive(want up_thru 15179 have 15180)",
    "initiated_at": "2025-05-08 10:37:09.737061",
    "age": 2338.8131370760002,
    "duration": 2338.8134614989999,
    "type_data": {
        "events": [
            {
                "time": "2025-05-08 10:37:09.737061",
                "event": "initiated"
            },
            // ...其他事件...
            {
                "time": "2025-05-08 10:37:09.737584",
                "event": "osdmap:wait_for_readable"
            }
        ]
    }
}

问题原因

分析后,确定了几个可能的原因:

  1. Leader监视器负载过高:Leader无法及时处理请求
  2. 监视器之间的网络通信问题:导致共识协议效率降低
  3. 监视器存储性能问题:影响OSDMap的更新和读取
  4. 监视器数量过多:7个监视器可能导致共识协议效率降低

解决方案

立即解决方法

重启Leader监视器:

systemctl restart ceph-mon@ceph00

这通常会触发以下过程:

  1. Leader监视器重启
  2. 集群可能会重新选举Leader
  3. 卡住的请求会被重新处理或丢弃
  4. 监视器状态恢复正常

总结

监视器慢操作是Ceph集群中常见的问题之一,通常与监视器负载、网络通信或存储性能有关。通过重启Leader监视器,成功解决了这个问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2373545.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uniapp使用ui.request 请求流式输出

正文: 在现代Web开发中,实时数据流和长时间运行的请求变得越来越常见,尤其是在处理大量数据或进行实时通信时。在这种情况下,uniapp 提供的 ui.request 请求方法可以帮助我们轻松实现流式输出请求。本文将介绍如何使用 uni.reques…

20250506让NanoPi NEO core开发板使用Ubuntu core16.04系统的TF卡启动

1、h3-sd-friendlycore-xenial-4.14-armhf-20210618.img.gz 在WIN10下使用7-ZIP解压缩/ubuntu20.04下使用tar 2、Win32DiskImager.exe 写如32GB的TF卡。【以管理员身份运行】 3、TF卡如果已经做过会有3个磁盘分区,可以使用SD Card Formatter/SDCardFormatterv5_WinE…

快速上手 Docker:从入门到安装的简易指南(Mac、Windows、Ubuntu)

PS:笔者在五一刚回来一直搞Docker部署AI项目,发现从开发环境迁移到生成环境时,Docker非常好用。但真的有一定上手难度,推荐读者多自己尝试踩踩坑。 本篇幅有限,使用与修改另起篇幅。 一、Docker是什么 #1. Docker是什…

MySQL + Elasticsearch:为什么要使用ES,使用场景与架构设计详解

MySQL Elasticsearch:为什么要使用ES,使用场景与架构设计详解 前言一、MySQL Elasticsearch的背景与需求1.1 为什么要使用Elasticsearch(ES)?1.2 为什么MySQL在某些场景下不足以满足需求?1.3 MySQL Elas…

从投入产出、效率、上手难易度等角度综合对比 pytest 和 unittest 框架

对于选择python作为测试脚本开发的同学来说,pytest和python unittest是必需了解的两个框架。那么他们有什么区别?我们该怎么选?让我们一起来了解一下吧! 我们从投入产出、效率、上手难易度等角度综合对比 pytest 和 unittest 框架…

关于汇编语言与程序设计——单总线温度采集与显示的应用

一、实验要求 (1)握码管的使用方式 (2)掌握DS18B20温度传感器的工作原理 (3)掌握单总线通信方式实现 MCU与DS18B20数据传输 二、设计思路 1.整体思路 通过编写数码管显示程序和单总线温度采集程序,结合温度传感报警,利用手指触碰传感器,当…

spring中的@Inject注解详情

在 Spring 框架中,Inject 是 Java 依赖注入标准(JSR-330) 的核心注解,与 Spring 原生的 Autowired 类似,但具备更标准化的跨框架特性。以下从功能特性、使用场景及与 Spring 原生注解的对比进行详细解析: 一…

Vue基础(8)_监视属性、深度监视、监视的简写形式

监视属性(watch): 1.当被监视的属性变化时,回调函数(handler)自动调用,进行相关操作。 2.监视的属性必须存在,才能进行监视!! 3.监视的两种写法: (1).new Vue时传入watch配置 (2).通过vm.$watc…

TCP IP

TCP/IP 通信协议,不是单一协议,是一组协议的集合 TCP IP UDP 1.建立链接 三次握手 第一步:客户端发送一个FIN报文,SEQX,等待服务器回应 第二步:服务器端受到,发送ackx1,seqy, 等待客户端回应 第三步&am…

(四)毛子整洁架构(Presentation层/Authentiacation/Authorization)

文章目录 项目地址一、Presentation 层1.1 数据库migration1. 添加数据库连接字符串2. 创建自动Migration/Seed3.修改Entity添加private 构造函数4. 执行迁移 1.2 全局错误处理中间件1.3 Controller 添加1. Apartments2. Bookings3. 测试 二、Authentiacation2.1 添加Keycloak服…

K8S服务的请求访问转发原理

开启 K8s 服务异常排障过程前,须对 K8s 服务的访问路径有一个全面的了解,下面我们先介绍目前常用的 K8s 服务访问方式(不同云原生平台实现方式可能基于部署方案、性能优化等情况会存在一些差异,但是如要运维 K8s 服务,…

20250510解决NanoPi NEO core开发板在Ubuntu core22.04.3系统下适配移远的4G模块EC200A-CN的问题

1、h3-eflasher-friendlycore-jammy-4.14-armhf-20250402.img.gz 在WIN10下使用7-ZIP解压缩/ubuntu20.04下使用tar 2、Win32DiskImager.exe 写如32GB的TF卡。【以管理员身份运行】 3、TF卡如果已经做过会有3个磁盘分区,可以使用SD Card Formatter/SDCardFormatterv5…

Linux系统之----模拟实现shell

在前面一个阶段的学习中,我们已经学习了环境变量、进程控制等等一系列知识,也许有人会问,学这个东西有啥用?那么,今天我就和大家一起综合运用一下这些知识,模拟实现下shell! 首先我们来看一看我…

TCP黏包解决方法

1. 问题描述 TCP客户端每100ms发送一次数据,每次为16006字节的数据长度。由于TCP传输数据时,为了达到最佳传输效能,数据包的最大长度需要由MSS限定(MSS就是TCP数据包每次能够传输的最大数据分段),超过这个长度会进行自动拆包。也就是说虽然客户端一次发送16006字节数据,…

vue访问后端接口,实现用户注册

文章目录 一、后端接口文档二、前端代码请求响应工具调用后端API接口页面函数绑定单击事件,调用/api/user.js中的函数 三、参考视频 一、后端接口文档 二、前端代码 请求响应工具 /src/utils/request.js //定制请求的实例//导入axios npm install axios import …

Nginx性能调优与深度监控

目录 1更改进程数与连接数 (1)进程数 (2)连接数 2,静态缓存功能设置 (1)设置静态资源缓存 (2)验证静态缓存 3,设置连接超时 4,日志切割 …

如何在大型项目中解决 VsCode 语言服务器崩溃的问题

在大型C/C项目中,VS Code的语言服务器(如C/C扩展)可能因内存不足或配置不当频繁崩溃。本文结合系统资源分析与实战技巧,提供一套完整的解决方案。 一、问题根源诊断 1.1 内存瓶颈分析 通过top命令查看系统资源使用情况&#xff…

AutoDL实现端口映射与远程连接AutoDL与Pycharm上传文件到远程服务器(李沐老师的环境)

文章目录 以上配置的作用前提AutoDL实现端口映射远程连接AutoDLPycharm上传文件到远程服务器以上配置的作用 使用AutoDL的实例:因本地没有足够强的算力,所以需要使用AutoDL AutoDL端口映射:当在实例上安装深度学习的环境,但因为实例的linux系统问题,无法图形化显示d2l中的文件…

13.thinkphp的Session和cookie

一.Session 1. 在使用Session之前,需要开启初始化,在中间件文件middleware.php; // Session 初始化 \think\middleware\SessionInit::class 2. TP6.0不支持原生$_SESSION的获取方式,也不支持session_开头的函数&…

多线程获取VI模块的YUV数据

一.RV1126 VI模块采集摄像头YUV数据的流程 step1:VI模块初始化 step2:启动VI模块工作 step3:开启多线程采集VI数据并保存 1.1初始化VI模块: VI模块的初始化实际上就是对VI_CHN_ATTR_S的参数进行设置、然后调用RK_MPI_VI_SetC…