OAT 初始化时出错?问题可能出在 PAM 配置上|OceanBase 故障排查实践

news2025/5/23 3:51:25
本文作者:爱可生数据库工程师,任仲禹,擅长故障分析和性能优化。

背景

某客户在使用 OAT 初始化OceanBase 服务器的过程中,进行到 precheck 步骤时,遇到了如下报错信息:

ERROR - check current session hard limit of open_files (ulimit -H -n): 4096 != 655350 ... EXPECT 655350 ... FAIL

错误大意:OAT 需要服务器的 ulimit -H -n 命令返回值是 655350,实际得到的是 4096。

下图所示,虚拟机因磁盘和内存规格不足而触发了检查错误提示(此信息可以忽略)。

排查过程

① 检查当前服务器的 ulimit 值

使用 SSH 登录到目标服务器检查。

结果:【不符合预期】

使用 su 切换到服务器 admin 用户检查。

结果:【符合预期】

这里就有问题,OAT 在 prepare 之前,已经有步骤对服务器的内核参数完成了调整,如下图所示。

这里的 oceanbase_limits.conf 是 OAT 生成的,属于全局配置生效。

理论上不应该出现 SSH 到服务器与 SU 到服务器查出 ulimit 结果不一致的情况。

② 检查 OAT 对于 ulimit 的检查机制

OAT 检查该步骤是运行的程序是 init_server_with_tag.py

[2024-09-27T16:34:52.775+0800] INFO - Running: ['airflow', 'tasks', 'run', 'init_server_with_tag', 'precheck', 'manual__2024-09-27T08:34:21.675314+00:00', '--job-id', '39950', '--raw', '--subdir', 'DAGS_FOLDER/init_server_with_tag.py', '--cfg-path', '/tmp/tmp5ni__moh']

登录到 OAT 容器,查看程序最终的调用如下。

# 脚本 task_engine/dags/init_server_with_tag.py
    def precheck():
        ctx = get_current_context()
        common.server_precheck(ctx, logger=logger)

# 脚本 task_engine/plugins/common.py
def server_precheck(ctx, logger):
    init_tag = ctx['params']['init_tag']
    role = _get_server_role(init_tag)
    envs = _get_custom_user_env(ctx['params'])
    with ServerRemoteExecute(server_id=ctx['params']['server_id']) as client:
        precheck_sh = SHELL_PATH / 'precheck.sh'
        ret_code, _ = client.execute_script(
            precheck_sh, args=('-m', role), control_master=False, logger=logger,
            env={'LC_ALL': 'en_US.UTF-8', 'OB_IP': client.server['ip'], **envs}
        )
        if ret_code != 0:
            raise RuntimeError('server precheck failed, please see the summary info above for details')
            
# 脚本 task_engine/shells/precheck.sh
check_limit() {
    limit_type_list=(-H/hard -S/soft)
    for limit in "${EXPECT_LIMITS[@]}"
    do
        limit_option=$(echo $limit | awk -F'/' '{print $1}')
        expect_limit=$(echo $limit | awk -F'/' '{print $2}')
        limit_description=$(echo $limit | awk -F'/' '{print $3}')
        limit_item=$(echo $limit | awk -F'/' '{print $4}')
        for limit_type in "${limit_type_list[@]}"
        do
            limit_type_option=$(echo $limit_type | awk -F'/' '{print $1}')
            limit_type_description=$(echo $limit_type | awk -F'/' '{print $2}')
            get_limit_cmd="ulimit $limit_type_option $limit_option"
            # check new session
            current_limit=$(runuser - "$EXPECT_USER" -c "$get_limit_cmd")
            if ! compare_ulimit "$current_limit" "$expect_limit"; then
                echo_fail "check permanent $limit_type_description limit of $limit_description ($get_limit_cmd): $current_limit != $expect_limit ... EXPECT $expect_limit"
                echo_hint "modify /etc/security/limits.d/oceanbase_limits.conf\n  echo \"*   $limit_type_description    $limit_item    $expect_limit\" >> /etc/security/limits.d/oceanbase_limits.conf"
            else
                echo_pass "check $limit_type_description limit of new session $limit_description ($get_limit_cmd): $current_limit"
            fi
            # check current session
            current_limit=$($get_limit_cmd)
            if ! compare_ulimit "$current_limit" "$expect_limit"; then
                echo_fail "check current session $limit_type_description limit of $limit_description ($get_limit_cmd): $current_limit != $expect_limit ... EXPECT $expect_limit"
                echo_hint "excute: ulimit $limit_type_option $limit_option $expect_limit"
            else
                echo_pass "check $limit_type_description limit of $limit_description ($get_limit_cmd): $current_limit"
            fi

        done
    done
}

这里 OAT 获取 ulimit 结果不符合预期的原因已清楚:

通过检查脚本,OAT 是通过 ServerRemoteExecute 模块(使用 SSH 方式)去目标服务器上执行 prepare.sh 脚本做 *ulimit 检查(与预期的 ulimit 值进行对比)。

但是,通过 SSH 连到服务器上执行 ulimit 命令的执行结果不符合预期,甩出报错。

③ 疑问:为何 SSH 连接时 ulimit 值不正确?

先使用 strace 命令查看下 su 时的系统调用。

strace -o /root/l1 su - admin
SU 的结果

SU 时,将调用 /usr/lib64/security/pam_limits.so 文件,继而获取到如下两个文件的 ulimit 配置:/etc/security/limits.conf 和  /etc/security/limits.d/oceanbase_limits.conf

所以,su - admin 命令执行的结果【符合预期】。

通过系统日志 /var/log/secure 可以看到,SU 操作加载了 pam 插件。

Oct 14 17:44:44 10-186-58-85 su: pam_unix(su-l:session): session opened for user admin by root(uid=0)

从结果反推下,为什么 SSH 不去读取  /usr/lib64/security/pam_limits.so 文件?

根据关键字,猜测跟 SSH 的 PAM 插件有关,继续检查 ssh_config 配置文件如下。

UsePAM no
  • 目标服务器的 PAM 确实是关闭的。
  • 通过系统日志 /var/log/secure 可以看到,SSH 操作没有加载 pam 插件。
Oct 14 17:50:40 10-186-58-85 sshd[25117]: Accepted publickey for root from 10.186.58.85 port 19118 ssh2: RSA SHA256:+TtbeuvInWm90vrJG7cHHm2G2a2FULFE0Uq+imx2m30
引申:PAM 的作用?

这里 ChatGPT 了一下,解释非常清楚如下图,总结一句就是:

关闭 PAM,用户 SSH 到服务器时,将不会读取 *limits.conf 的配置,继而导致获取到默认配置而使 OAT 报错。

解决方法

将配置文件 /etc/ssh/sshd_config 中的 UsePAM 修改为 yes ,重启 SSHD 服务即可。

启用 PAM 插件后,再次 SSH 可以看到系统日志如下多了加载 pam_unix(sshd:session) 的操作。

Oct 14 17:51:56 10-186-58-85 sshd[26147]: Accepted publickey for root from 10.186.58.85 port 19480 ssh2: RSA SHA256:+TtbeuvInWm90vrJG7cHHm2G2a2FULFE0Uq+imx2m30
Oct 14 17:51:56 10-186-58-85 sshd[26147]: pam_unix(sshd:session): session opened for user root by (uid=0)

原因分析总结

  • OAT 在初始化服务器预检查过程中报告了 ulimit 值不符合预期的错误,这一问题的根源在于目标服务器的 sshd_config 配置不当。
  • sshd_config 中 禁用了 PAM 插件,导致 OAT 无法读取到目标服务器上经过优化的 ULIMIT 配置文件。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2383590.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

1-机器学习的基本概念

文章目录 一、机器学习的步骤Step1 - Function with unknownStep2 - Define Loss from Training DataStep3 - Optimization 二、机器学习的改进Q1 - 线性模型有一些缺点Q2 - 重新诠释机器学习的三步Q3 - 机器学习的扩展Q4 - 过拟合问题(Overfitting) 一、…

Hass-Panel - 开源智能家居控制面板

文章目录 ▎项目介绍:预览图▎主要特性安装部署Docker方式 正式版Home Assistant Addon方式详细安装方式1. Home Assistant 插件安装(推荐)2. Docker 安装命令功能说明 :3. Docker Compose 安装升级说明Docker Compose 版本升级 功…

Ubuntu搭建NFS服务器的方法

0 工具 Ubuntu 18.041 Ubuntu搭建NFS服务器的方法 在Ubuntu下搭建NFS(网络文件系统)服务器可以让我们像访问本地文件一样访问Ubuntu上的文件,例如可以把开发板的根文件系统放到NFS服务器目录下方便调试。 1.1 安装nfs-kernel-server&#…

网感驱动下开源AI大模型AI智能名片S2B2C商城小程序源码的实践路径研究

摘要:在数字化浪潮中,网感已成为内容创作者与商业运营者必备的核心能力。本文以开源AI大模型、AI智能名片及S2B2C商城小程序源码为技术载体,通过解析网感培养与用户需求洞察的内在关联,提出"数据驱动-场景适配-价值重构"…

COMPUTEX 2025 | 广和通5G AI MiFi解决方案助力移动宽带终端迈向AI新未来

随着5G与AI不断融合,稳定高速、智能的移动网络已成为商务、旅行、户外作业等场景的刚需。广和通5G AI MiFi方案凭借领先技术与创新设计,重新定义5G移动网络体验。 广和通5G AI MiFi 方案搭载高通 4nm制程QCM4490平台,融合手机级超低功耗技术…

防范Java应用中的恶意文件上传:确保服务器的安全性

防范Java应用中的恶意文件上传:确保服务器的安全性 在当今数字化时代,Java 应用无处不在,而文件上传功能作为许多应用的核心组件,却潜藏着巨大的安全隐患。恶意文件上传可能导致服务器被入侵、数据泄露甚至服务瘫痪,因…

STM32H7时钟树

时钟树分析 STM32H7共有6个外部时钟源,分别是: HSI(高速内部振荡器)时钟:~ 8 MHz、16 MHz、32 MHz 或 64 MHzHSE(高速外部振荡器)时钟:4 MHz 到 48 MHzLSE(低速外部振荡器&#xff…

【通用智能体】Serper API 详解:搜索引擎数据获取的核心工具

Serper API 详解:搜索引擎数据获取的核心工具 一、Serper API 的定义与核心功能二、技术架构与核心优势2.1 技术实现原理2.2 对比传统方案的突破性优势 三、典型应用场景与代码示例3.1 SEO 监控系统3.2 竞品广告分析 四、使用成本与配额策略五、开发者注意事项六、替…

【图像生成大模型】CogVideoX-5b:开启文本到视频生成的新纪元

CogVideoX-5b:开启文本到视频生成的新纪元 项目背景与目标模型架构与技术亮点项目运行方式与执行步骤环境准备模型加载与推理量化推理 执行报错与问题解决内存不足模型加载失败生成质量不佳 相关论文信息总结 在人工智能领域,文本到视频生成技术一直是研…

剧本杀小程序:指尖上的沉浸式推理宇宙

在推理热潮席卷社交圈的当下,你是否渴望随时随地开启一场烧脑又刺激的冒险?我们的剧本杀小程序,就是你掌心的“推理魔法盒”,一键解锁无限精彩! 海量剧本库,满足多元口味:小程序汇聚了从古风权…

2024正式版企业级在线客服系统源码+语音定位+快捷回复+图片视频传输+安装教程

2024正式版企业级在线客服系统源码语音定位快捷回复图片视频传输安装教程; 企业客服系统是一款全功能的客户服务解决方案,提供多渠道支持(如在线聊天、邮件、电话等),帮助企业建立与客户的实时互动。该系统具有智能分…

深入解析 Oracle session_cached_cursors 参数及性能对比实验

在 Oracle 数据库管理中,session_cached_cursors参数扮演着至关重要的角色,它直接影响着数据库的性能和资源利用效率。本文将深入剖析该参数的原理、作用,并通过性能对比实验,直观展示不同参数设置下数据库的性能表现。 一、sessi…

【RabbitMQ】整合 SpringBoot,实现工作队列、发布/订阅、路由和通配符模式

文章目录 工作队列模式引入依赖配置声明生产者代码消费者代码 发布/订阅模式引入依赖声明生产者代码发送消息 消费者代码运行程序 路由模式声明生产者代码消费者代码运行程序 通配符模式声明生产者代码消费者代码运行程序 工作队列模式 引入依赖 我们在创建 SpringBoot 项目的…

Node.js Express 项目现代化打包部署全指南

Node.js Express 项目现代化打包部署全指南 一、项目准备阶段 1.1 依赖管理优化 # 生产依赖安装(示例) npm install express mongoose dotenv compression helmet# 开发依赖安装 npm install nodemon eslint types/node --save-dev1.2 环境变量配置 /…

upload-labs通关笔记-第15关 文件上传之getimagesize绕过(图片马)

目录 一、图片马 二、文件包含 三、文件包含与图片马 四、图片马制作方法 五、源码分析 六、制作图片马 1、创建脚本并命名为test.php 2、准备制作图片马的三类图片 3、 使用copy命令制作图片马 七、渗透实战 1、GIF图片马渗透 (1)上传gif图…

idea无法识别Maven项目

把.mvn相关都删除了 导致Idea无法识别maven项目 或者 添加导入各个模块 最后把父模块也要导入

linux中cpu内存浮动占用,C++文件占用cpu内存、定时任务不运行报错(root) PAM ERROR (Permission denied)

文章目录 说明部署文件准备脚本准备部署g++和编译脚本使用说明和测试脚本批量部署脚本说明执行测试定时任务不运行报错(root) PAM ERROR (Permission denied)报错说明处理方案说明 我前面已经弄了几个版本的cpu和内存占用脚本了,但因为都是固定值,所以现在重新弄个用C++编写的…

STM32 | FreeRTOS 消息队列

01 一、概述 队列又称消息队列,是一种常用于任务间通信的数据结构,队列可以在任务与任务间、中断和任务间传递信息,实现了任务接收来自其他任务或中断的不固定长度的消息,任务能够从队列里面读取消息,当队列中的消…

便捷的Office批量转PDF工具

软件介绍 本文介绍的软件是一款能实现Office批量转换的工具,名为五五Excel word批量转PDF。 软件小巧 这款五五Excel word批量转PDF软件大小不到2M。 操作步骤一 使用该软件时,只需把软件和需要转换的Word或Excel文件放在同一个文件夹里。 操作步骤…

opcUA 编译和建模入门教程(zhanzhi学习笔记)

一、使用SIOME免费工具建模 从西门子官网下载软件SIOS,需要注册登录,下载安装版就行。下载后直接安装就可以用了,如图: 安装完成后打开,开始建模,如图左上角有新建模型的按钮。 新建了新工程后&#xff0c…