Kubernetes 运维操作手册:从 etcd 快照进行精确恢复

news2025/5/17 9:32:37

1

   

5 步实现 etcd 精确恢复

  1. 将快照恢复到本地 etcd 数据目录。

  2. 使用恢复的数据启动本地 etcd 实例。

  3. 使用 etcdctl 查询特定键(例如,ConfigMap)。

  4. 使用 auger 解码以提取干净的 YAML。

  5. 使用 kubectl 申请恢复到您的实时集群。

本指南将指导您从 etcd 快照中精准地恢复资源,而无需触发完整的集群恢复。无论您是要排除意外删除故障,还是进行取证调试,这种轻量级且有针对性的方法都能最大程度地减少停机时间。#Kubernetes

2

   

引言:🩺Kubernetes 操作里的紧急情况

etcd 是 Kubernetes 集群的核心,它是一个分布式键值存储系统,忠实地维护系统内每个对象的状态。但是,如果某个资源(例如 ConfigMap、Secret 或 Deployment)被删除或损坏,会发生什么情况呢?

启动完整的集群恢复就像进行心脏手术来修复纸张划伤一样。它具有破坏性、风险性,而且通常没有必要。

这就是手术精度发挥作用的地方。

想象一下,您的生产环境陷入危机——一个重要的 ConfigMap 消失了,Pod 崩溃了,用户只能盯着错误页面。完全回滚会比问题本身造成更大的损失。您需要的是一个“外科医生”式的方案:只修复损坏的部分,其他部分一概不做。

在本博客中,您将了解如何:

  1. 从 etcd 快照中隔离并提取特定资源

  2. 仅将所需内容直接恢复到实时 Kubernetes 集群中

  3. 避免不必要的停机并保持集群稳定性

  4. 非常适合重视最小影响恢复的 DevOps、SRE 和 Kubernetes 管理员。

3

   

先决条件🔧

为了继续操作,请确保您已具备:

  • etcd v3.4+ — etcd 服务器二进制文件可在此处获取

  • etcdctl — 与 etcd 交互的 CLI

  • auger — CLI 工具,用于将 etcd 的二进制有效负载解码为 YAML

  • kubectl — CLI 用于将资源应用于 Kubernetes 集群

  • 快照文件— 例如 live-cluster-snapshot.db

始终先在暂存环境中工作。从干净的快照开始:

etcdctl snapshot save live-cluster-snapshot.db

4

   

恢复过程🏥

假设 production 命名空间中一个关键的 ConfigMap app-config 被意外删除了。以下是如何将其恢复:

4.1

   

🧬 步骤 1:准备快照

如果压缩,请解压缩快照:

gunzip live-cluster-snapshot.db.gz

然后恢复它:

etcdctl snapshot restore live-cluster-snapshot.db --data-dir=recovery-etcd

4.2

   

🩻 第 2 步:启动本地 etcd 实例

etcd --data-dir=recovery-etcd --listen-client-urls=http://localhost:2379

核实:

etcdctl --endpoints=localhost:2379 endpoint status

4.3

   

🔍 步骤 3:定位并提取资源

Kubernetes 将 ConfigMap 存储在类似 /registry/configmaps//的键中。列出生产命名空间中的键:

etcdctl --endpoints=localhost:2379 get --prefix "/registry/configmaps/production" --keys-only你会看到类似这样的内容:

/registry/configmaps/production/app-config提取并解码 ConfigMap:

etcdctl --endpoints=localhost:2379 get /registry/configmaps/production/app-config --print-value-only | auger decode > app-config.yaml

生成的 app-config.yaml 可能如下所示:

apiVersion: v1  kind: ConfigMap  metadata:    name: app-config    namespace: production  data:    api-url: "https://api.example.com"    log-level: "debug"

4.4

   

步骤 4:恢复到集群

通过试运行来测试修复效果:

kubectl apply -f app-config.yaml --dry-run=server

如果一切检查无误,则应用它:

kubectl apply -f app-config.yaml

输出:

configmap/app-config created

4.5

   

🧹 步骤 5:清理

pkill etcdrm -rf recovery-etcd app-config.yaml

5

   

高级场景🔍

5.1

   

💠 跨命名空间恢复

cat app-config.yaml | yq eval '.metadata.namespace = "dev"' | kubectl apply -f -

5.2

   

🔐 加密集群 (KMS)

使用 etcdctl 并根据 etcd 加密指南配置解密密钥。📦批量恢复 

etcdctl --endpoints=localhost:2379 get --prefix "/registry/configmaps/production" --print-value-only | auger decode > all-cm.yaml

6

   

总结

最后的想法💡Kubernetes 管理员经常为灾难性故障做准备,但忽略了精确恢复的价值。能够精准地提取和恢复资源,并减少停机时间、防止附带损害、增强对事件响应的信心。当下次灾难来临时,您不会手忙脚乱,而是会采取行动。

随手关注或者”在看“,诚挚感谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2377535.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

云轴科技ZStack官网上线Support AI,智能助手助力高效技术支持

5月16日,云轴科技ZStack在官网(www.zstack.io)正式上线ZStack Support AI智能助手。该系统是ZStack应用人工智能于技术支持服务领域的重要创新,基于自研ZStack AIOS平台智塔及LLMOPS技术打造。 ZStack Support AI定位为智能客服&…

UE5中制作动态数字Decal

在进行城市道路编辑时,经常需要绘制人行道、交通标志、停车线等路面元素。如果能够使用具有动态修改功能的 Decal(贴花),将大大提升编辑效率和灵活性。接下来讲解如何制作。 1.首先准备一张包含所需元素的Texture,这里…

【踩坑】修复Cloudflare的Origin Rules端口重定向不生效

转载请注明出处:小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你,欢迎[点赞、收藏、关注]哦~ 网上没人说,目前我是通过以下两种方式成功将二级域名映射到指定端口的。关于如何映射,网上教程很多,这里只说不生效…

2025 年十大网络安全预测

随着我们逐步迈向 2026 年,网络安全领域正处于一个关键的转折点,技术创新与数字威胁以前所未有的复杂态势交织在一起。 地缘政治环境进一步加剧了这些网络安全挑战,国际犯罪组织利用先进的技术能力来追求战略目标。 人工智能在这一不断演变…

紫外相机工作原理及可应用范围

紫外相机是一种利用紫外线(UV)波段进行成像的设备,紫外线可用于机器视觉应用中,以检测使用可见光无法检测到的特征,工业上使用最常见的紫外波长是365nm和395nm。紫外相机通常用于高分辨率视频显微镜、电晕检测、半导体…

【虚幻引擎】UE5独立游戏开发全流程(商业级架构)

本套课程我将会讲解一下知识 1.虚幻引擎的常用功能节点、模块包含但不限于动画模块、UI模块、AI模块、碰撞模块、伤害模块、背包模块、准心模块、武器模块、可拾取物品模块、死亡等模块。 2.整个游戏的设计思路(游戏架构),本套教程讲解了如…

嵌入式单片机中STM32F1演示寄存器控制方法

该文以STM32F103C8T6为示例,演示如何使用操作寄存器的方法点亮(关闭LED灯),并讲解了如何调试,以及使用宏定义。 第一:操作寄存器点亮LED灯。 (1)首先我们的目的是操作板子上的LED2灯,对其实现点亮和关闭操作。打开STM32F103C8T6的原理图,找到LED2的位置。 可以看到…

spark-cache模式

一、RDD持久化 1.什么时候该使用持久化(缓存) 2. RDD cache & persist 缓存 3. RDD CheckPoint 检查点 4. cache & persist & checkpoint 的特点和区别 特点 区别 二、cache & persist 的持久化级别及策略选择 Spark的几种持久化…

架构思维:通用架构模式_系统监控的设计

文章目录 引言什么是监控三大常见监控类型1. 次数监控2. 性能监控3. 可用率监控 落地监控1. 服务入口2. 服务内部3. 服务依赖 监控时间间隔的取舍小结 引言 架构思维:通用架构模式_从设计到代码构建稳如磐石的系统 架构思维:通用架构模式_稳如老狗的SDK…

InfluxDB 2.7 连续查询实战指南:Task 替代方案详解

InfluxDB 2.7 引入了 Task 功能,作为连续查询(CQ)的现代替代方案。本文详细介绍了如何使用 Task 实现传统 CQ 的功能,包括语法解析、示例代码、参数对比以及典型应用场景。通过实际案例和最佳实践,帮助开发者高效迁移并…

【SpringBoot】从零开始全面解析SpringMVC (二)

本篇博客给大家带来的是SpringBoot的知识点, 本篇是SpringBoot入门, 介绍SpringMVC相关知识. 🐎文章专栏: JavaEE进阶 🚀若有问题 评论区见 👉gitee链接: 薯条不要番茄酱 ❤ 欢迎大家点赞 评论 收藏 分享 如果你不知道分享给谁,那就分享给薯条…

蒟蒻编程日志

ORZ (用于记录你这个“人”是不是真的,也就是说CSDN的流量是否属合适) 2025/4/14 21:25 开坑 前言 2024/10/26:CSP-J 260pts,CSP-S 45pts。 2025/3/1:%你赛 180pts rk34 寄!这就是不认真的…

git克隆github项目到本地的三种方式

本文旨在使用git工具将别人发布在github上的项目保存到本地 1.安装git,创建github账户,并使用ssh关联自己的github账号和git,具体教程可以参照下面两篇文章: Github入门教程,适合新手学习(非常详细&#…

EtherCAT转EtherNet/IP解决方案-泗博网关CEI-382

一、应用场景 在智能制造快速发展的背景下,工业自动化领域对设备间通信提出了更高要求,需要同时满足实时性、可靠性和灵活性的需求。EtherCAT 与 EtherNet/IP 作为工业通信领域的两大核心协议,各自在不同应用场景中发挥着关键作用。EtherCAT …

子查询对多层join优化记录

需求背景 查询某个用户是否具有某个角色 表 CREATE TABLE mdm_platform_role_user (ID bigint NOT NULL AUTO_INCREMENT,ROLE_ID varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci DEFAULT NULL,USER_ID varchar(100) CHARACTER SET utf8 COLLATE utf8_general_ci …

分布式AI推理的成功之道

随着AI模型逐渐成为企业运营的核心支柱,实时推理已成为推动这一转型的关键引擎。市场对即时、可决策的AI洞察需求激增,而AI代理——正迅速成为推理技术的前沿——即将迎来爆发式普及。德勤预测,到2027年,超半数采用生成式AI的企业…

PR-2021

推荐深蓝学院的《深度神经网络加速:cuDNN 与 TensorRT》,课程面向就业,细致讲解CUDA运算的理论支撑与实践,学完可以系统化掌握CUDA基础编程知识以及TensorRT实战,并且能够利用GPU开发高性能、高并发的软件系统&#xf…

Linux复习笔记(六)shell编程

遇到的问题,都有解决方案,希望我的博客能为你提供一点帮助。 三、shell编程简明教程 一、Shell基础概念 ​​1. Shell的作用​​ 是用户与Linux内核交互的桥梁,既是命令解释器,也是一种脚本语言。运行机制:用户输入…

Unity 拖尾烟尘效果及参数展示

亮点:在移动特效过后 ,粒子会顺着惯性继续向前移动一小段距离。 以unity-URP管线为例,下图是Particle System参数分享: Start Color参数: UnityEditor.GradientWrapperJSON:{"gradient":{"serialized…

Vue3 Echarts 3D饼图(3D环形图)实现讲解附带源码

文章目录 前言一、准备工作1. 所需工具2. 引入依赖方式一:CDN 快速引入方式二:npm 本地安装(推荐) 二、实现原理解析三、echarts-gl 3D插件 使用回顾grid3D 常用通用属性:series 常用通用属性:surface&…