数据库管理-第五十四期 春节俩故障(20230128)

news2025/8/17 7:09:26

数据库管理 2023-01-28

  • 第五十四期 春节俩故障
    • 1 19.13 bug 32076305
    • 2 19.15 CSS
    • 总结

第五十四期 春节俩故障

虽然春节期间除了年三十的现场值班和远程值班,没啥事的,结果还是处理了俩故障,今天上工,分析一下。

1 19.13 bug 32076305

大年初四刚过12点,正在关机准备睡觉,收到短信告警,X8M那套一体机一个实例出现LMHB进程异常和ORA 29770报错,随即开机检查,发现该节点数据库实例已完成重启,检查告警日志发现以下内容:

<msg time='2023-01-24T23:59:13.065+08:00' org_id='oracle' comp_id='rdbms'
type='UNKNOWN' level='16' host_id='xxxdbadm01.xxx.com'
host_addr='10.110.187.98' pid='313846' con_uid='1'
con_id='1' con_name='CDB$ROOT'>
<txt>LMD0 (ospid: 313601) has not called a wait for 88 secs.
</txt>
</msg>
<msg time='2023-01-24T23:59:15.290+08:00' org_id='oracle' comp_id='rdbms'
msg_id='3469116049' type='INCIDENT_ERROR' level='1'
host_id='xxxdbadm01.xxx.com' host_addr='10.110.187.98' pid='313846'
prob_key='ORA 29770' downstream_comp='LMHB' errid='648350'
detail_path='/u01/app/oracle/diag/rdbms/xxdbaas/xxdbaas1/trace/xxdbaas1_lmhb_313846.trc' con_uid='1' con_id='1'
con_name='CDB$ROOT'>
<txt>Errors in file /u01/app/oracle/diag/rdbms/xxdbaas/xxgdbaas1/trace/xxdbaas1_lmhb_313846.trc (incident=648350) (PDBNAME=CDB$ROOT):
ORA-29770: global enqueue process LMD0 (OSID 313601) is hung for more than 70 seconds
</txt>
<arg name='PDBNAME' value='CDB$ROOT'/>
</msg>
<msg time='2023-01-24T23:59:15.291+08:00' org_id='oracle' comp_id='rdbms'
msg_id='dbgexProcessError:1328:3370026720' type='TRACE' level='16'
host_id='xxxdbadm01.xxx.com' host_addr='10.110.187.98' pid='313846'
con_uid='1' con_id='1' con_name='CDB$ROOT'>
<txt>Incident details in: /u01/app/oracle/diag/rdbms/xxdbaas/xxdbaas1/incident/incdir_648350/xxdbaas1_lmhb_313846_i648350.trc
</txt>

global enqueue process LMD0进程夯死造成了实例重启,还好23:59:13实例中断,23:59:32完成重启,重启只花了19s,没有影响到业务,特别是12点即将开始大一大堆跑批。随即收集日志,半夜开1级非7*24SR,并通知后台熟人看看能不能接单(是谁老读者肯定知道,当然是第二天接到了)。
第二天经过后台排查,匹配到一个BUG:Bug 32076305 - ORA-29770 LMD has no heartbeats - LMD Stack is in kjr_freeable_chunk_free (Doc ID 32076305.8)
在这里插入图片描述
这个bug影响19.4、8、10-13这几个版本,在19.13.2及19.14以后修复,如果各位在生产中遇到了,请及时排查并应用该BUG的补丁。

2 19.15 CSS

这个事情也是25日中午发生,是另外个省一套19.15的双节点RAC,一个节点(节点2)操作系统重启了,我是作为操作系统方面的补充看看数据库的问题。老规矩收日志,重启是11:43-11:44之间发生的:

  • 节点2数据库日志
    首先数据库日志显示数据库从11:27:59就开始无法响应外部连接请求。数据库于12:04:28开始启动数据库实例,并于12:05:21完成数据库启动
  • 节点2CRS日志
    从1月19日就出现节点ASM资源失败、CSS无响应的现象,并持续出现私网连接异常超时的报错知道出现故障之前1月25日11:04:18后停止了日志输出。
    这里还有个小插曲,12:28:24集群跟随操作系统启动开始启动,12:04:26完成启动,这里用的NTP作为时间同步,大概率是NTP启动晚于GI启动,时间同步后也没有做一次时间同步硬件的操作。
  • 节点1CRS日志
    在这里插入图片描述

节点1是接到节点2的cssdagent和oracssdmonitor异常的通知,需要重启,节点2被驱逐出集群的记录。时间也与客户提供故障时间吻合。加上操作系统、BMC的一些日志也有cssdagent和udev相关的记录,在这里可以确认是因为CSS服务异常引起的故障。

然而当天硬件还发现系统盘中的一块盘也有异常,在操作系统重启后在线更换了。客户那边的DBA资源呢,又说是操作系统侧引起的数据库夯死,数据库是不可能引起操作系统重启的,然而事实是这样的么?我们看看官方文档对CSS服务的解释:
在这里插入图片描述
这里最后一句话明确说明了,cssdagent异常的情况下,可能导致集群重启节点。其实做过RAC高可用测试的都知道,不止是这个进程,还有不少进程异常也会导致集群重启节点操作系统。
客户那边DBA做出上面的陈述原因其实也简单,借用以为大佬说的“正常,从单节点到rac知识体系扩大了三五倍”,可能也有人没去看grid家目录的权限情况。还有呢就是,其实也是上期说过的,这种现象也出现在很多大的服务商里面,数据库的问题是数据库的,操作系统是操作系统的,两边交叉出问题的话,就很难去排查。
由于客户没有MOS账号,我这边也只能自己根据数据库日志、操作系统日志进行排查,结合555.1,找到一个匹配的BUG,更符合这次故障的情况:
在这里插入图片描述
当然这个还需要更进一步的排查。

总结

苦逼的7天班!
老规矩,知道写了些啥。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/182088.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

了解3dmax面片建模方式

首先在模式里面选中面片栅格&#xff0c;Patch Grids&#xff1b; 选择四边形面片&#xff1b; 在顶视图中画一个面片&#xff0c;之后如下&#xff1b;面片从前和左看到的是一条线&#xff1b; 调整面片参数&#xff0c;长度分段和宽度分段分别为2和3&#xff1b; 工具栏选中修…

信息论复习—线性分组码的基本性质

目录 线性分组码&#xff1a; 非线性码示例&#xff1a; 线性码示例: 许用码字间的距离&#xff0d;&#xff0d;码距&#xff1a; 码距与码的检错纠错能力之间的关系&#xff1a; 线性分组码的基本性质&#xff1a; 线性分组码的最小码距与最小码重的关系&#xff1a; …

最详细的华为VRP操作指南

第二章&#xff1a;华为VRP系统 通用路由平台VRP&#xff08;Versatile Routing Platform&#xff09;是华为公司数据通信产品的通用操作系统平台。它以IP业务为核心&#xff0c;采用组件化的体系结构&#xff0c;在实现丰富功能特性的同时&#xff0c;还提供了基于应用的可裁…

Android深入系统完全讲解(43)

为什么要编码&#xff1f;这里主要是因为信息有甬余需要压缩&#xff0c;所以会出现各类算法。如果存储原始 数据&#xff0c;那就很大。 举例来说&#xff0c;BMP&#xff0c;压缩算法有 jpg&#xff0c;png 等等。 比如 PCM&#xff0c;压缩的 mp3 H.264 相关 这里我们看一下…

剑指 Offer 09. 用两个栈实现队列(力扣)

一&#xff1a;题目用两个栈实现一个队列。队列的声明如下&#xff0c;请实现它的两个函数 appendTail 和 deleteHead &#xff0c;分别完成在队列尾部插入整数和在队列头部删除整数的功能。(若队列中没有元素&#xff0c;deleteHead 操作返回 -1 )示例 1&#xff1a;输入&…

小米万兆路由器里的Docker安装Alist

小米2022年12月份发布了万兆路由器&#xff0c;里面可以使用Docker。 今天尝试在小米的万兆路由器里安装Alist v3.9.2。 准备工作 请参考https://engchina.blog.csdn.net/article/details/128515422的准备工作。 创建存储 在第三方管理(SimpleDocker)&#xff0c;单击"…

Scala-变量和数据类型

注释在Scala中注释和Java基本一样单行注释&#xff1a;// 多行注释&#xff1a;/* */ 文档注释&#xff1a;/****/变量和常量基本语法声明变量&#xff1a;var 变量名 [:变量类型] 初始值 如&#xff1a;var a:Int 10 声明常量&#xff1a;val 变量名 [:常量类型] 初始值 如…

深度卷积神经网络、池化层

目录1.深度卷积神经网络(a deep convolutional neural network)输入图像的维度是&#xff0c;如果&#xff0c;计算输出图像维度公式&#xff1a;。s表示步幅&#xff0c;p表示填充的层数。filters的通道数是和输入图像的通道数保持一致的。分析上图案例&#xff1a;第一层卷积…

《深入浅出计算机组成原理》学习笔记 Day13

数据通路&#xff08;中&#xff09;1. 时钟信号的硬件实现2. 通过 D 触发器实现存储功能参考1. 时钟信号的硬件实现 有些电路只要需要给定输入&#xff0c;就能得到固定的输出&#xff0c;这样的电路称为组合逻辑电路&#xff08;Combination Logic Circuit&#xff09;。 时…

如何使用自己的虚拟机(linux)做个RAID玩?

在虚拟机原有基础上添加两块磁盘&#xff08;均20G&#xff09;&#xff0c;步骤如下&#xff1a;使用命令“lsblk”检查添加是否生效&#xff1b;使用命令“mdadm”进行linux的raid管理&#xff08;先安装mdadm工具&#xff09;创建RAID1,名字为md1&#xff0c;即使用mdadm命令…

虚拟机字节码执行引擎

------摘自周志明 《深入理解Java虚拟机》运行时栈帧结构Java虚拟机以方法作为最基本的执行单元&#xff0c;“栈帧”&#xff08;Stack Frame&#xff09;则是用于支持虚拟机进行方法调用和方法执行背后的数据结构&#xff0c;它也是虚拟机运行时数据区中的虚拟机栈&#xff…

C语言及算法设计课程实验三:最简单的C程序设计——顺序程序设计((一、二、三、四)的综合文章)

C语言及算法设计课程实验三&#xff1a;最简单的C程序设计——顺序程序设计&#xff08;&#xff08;一、二、三、四&#xff09;的综合文章&#xff09;一、实验目的二、 实验内容2.1、实验内容1&#xff1a;通过下面的程序掌握各种格式转换符的正确使用方法2.2、实验内容2&am…

十年聚焦,巨杉数据库再获毕马威2022领先金融科技50企业殊荣

巨杉数据库凭借在金融科技与分布式数据库领域出色的市场表现与过硬的技术实力&#xff0c;成功入选“2022中国领先金融科技50企业”&#xff0c;成为本次榜单唯一入选的分布式数据库厂商。 1月16日&#xff0c;「2022毕马威中国金融科技企业双50榜单」&#xff08;下简称榜单&a…

数组扁平化,操作方法

数组扁平化是指将一个多维数组变成一维数组。 [1, [[2, 3], 4]] --> [1, 2, 3, 4] 目录 方法1&#xff1a; Array.prototype.flat() 方法2&#xff1a;Array.prototype.toString() 和 Array.prototype.join() 方法3&#xff1a;递归 方法4&#xff1a;扩展运算符 方法5…

Centos下安装ActiveMQ消息中间件

记录一下在centos7.x下面安装activeMQ消息中间件在安装ActiveMQ之前必须保证服务器安装了java环境安装java环境的地址:安装java环境找到activeMQ的官网下载安装包https://activemq.apache.org/components/classic/download/java版本是java8从官网下载后(apache-activemq-5.16.5…

【Linux】题解:生产者与消费者模型(附源代码)

【Linux】题解&#xff1a;生产者与消费者模型&#xff08;附源代码&#xff09; 摘要&#xff1a;本文主要介绍生产者与消费者模型&#xff0c;其中主要内容分为对该模型的介绍及分析&#xff0c;阻塞队列实现该模型&#xff0c;并对其升级实现多生产者多消费者并行执行。其中…

Day14 基于AOP的声明式事务控制

1 Spring 事务编程概述PlatformTransactionManager TransactionDefinition TransactionStatus2 搭建环境数据库准备一个账户表tb account;dao层准备一个AccountMapper&#xff0c;包括incrMoney和decrMoney两个方法;service层准备一个transferMoney方法&#xff0c;分别调用in…

18行列式及其性质

从此课开始&#xff0c;就进入了这门课的第二部分。迄今为止&#xff0c;已经学习了很多关于长方矩阵的知识&#xff0c;现在&#xff0c;把注意力转向方阵&#xff0c;探讨两个大的话题&#xff1a;行列式和特征值&#xff0c;需要行列式的重要原因是求特征值。 行列式是跟每…

U3772频谱分析仪

18320918653 U3772 新的便携式频谱分析仪具有体积小&#xff0c;重量轻的特点&#xff0c;可以在微波和毫米波范围内测量无线信号日本株式会社爱德万测试是全球半导体测试系统的领先企业&#xff0c;于2005年7月6日发布了一种新的便携式频谱分析仪U3771&#xff08;频率达到3…

[Java-多线程] 锁原理(轻量级锁、锁膨胀、自旋锁、偏向锁)

1.Java对象头 我们平时使用的对象都是由两部分组成, 第一部分是对象头, 第二部分是对象的成员变量, 这里我么主要讲解对象头, 以32为虚拟机为例 : Object Header (64 bits)Mark Word (32 bits)Klass Word (32 bits)Klass Word : 每个对象都有类型 通过Klass Word就可以找到对应…