k8s监控方案实践补充(二):使用kube-state-metrics获取资源状态指标

news2025/5/20 18:46:52

k8s监控方案实践补充(二):使用kube-state-metrics获取资源状态指标

文章目录

  • k8s监控方案实践补充(二):使用kube-state-metrics获取资源状态指标
  • 一、Metrics Server简介
  • 二、kube-state-metrics实战部署
    • 1. 创建RBAC(kube-state-metrics-rbac.yaml)
    • 2. 创建Service(kube-state-metrics-svc.yaml)
    • 3. 创建Deployment(kube-state-metrics-deploy.yaml)
    • 4. 部署所有资源
  • 总结


随着容器化和微服务架构的不断发展,系统的复杂性与日俱增,构建一套完善的监控与资源管理体系已成为保障系统稳定运行的关键。在前几篇文章中,我们已经介绍了如何部署 Prometheus、Node Exporter、Grafana 以及 Alertmanager,并通过钉钉 Webhook 实现了监控告警的闭环。

在本篇补充文章中,我们将部署 Kubernetes 官方提供的资源对象状态采集组件 —— kube-state-metrics。它通过访问 API Server,实时导出 Pod、Deployment、StatefulSet、PVC 等 Kubernetes 对象的详细状态指标,为 Prometheus 提供更丰富的监控数据支持,帮助我们全面掌握集群运行状态、资源对象的变化情况,并为告警配置和可视化展示打下基础。

一、Metrics Server简介

kube-state-metrics 是 Kubernetes 官方维护的 Exporter,专门用于收集集群中各类资源对象的状态信息(如 Deployment 副本状态、Pod 准备情况、PVC 是否绑定等),并以 Prometheus 支持的格式对外暴露。
它与 Metrics Server 的区别在于:

项目kube-state-metricsMetrics Server
指标类型对象状态指标资源使用率指标
示例指标Deployment 副本数、Pod 状态、PVC 状态等Pod/Node 的 CPU、内存使用率
数据持久化否(需 Prometheus 拉取)
适用场景状态监控、结构化分析、告警配置实时资源监控、HPA 自动扩缩容

Metrics Server 不同,kube-state-metrics 不提供节点或 Pod 的实时资源使用数据(如 CPU、内存),而是专注于资源对象的状态变更,例如:

  • 某个 Pod 是否处于 Ready 状态
  • Deployment 的实际副本数是否满足期望
  • PVC 是否成功绑定
  • Node 是否处于 NotReady 状态

部署 kube-state-metrics 后,能够实现以下功能:

  • 为 Prometheus 提供更丰富的集群状态指标来源
  • 辅助构建针对 K8s 对象状态的 Grafana 可视化面板
  • 支持告警规则配置,如 “某 Deployment 副本不足” 或 “某 Node 不可用”

⚠️ 需要注意的是,kube-state-metrics 只是将数据导出为指标,它本身不存储数据,需要配合 Prometheus 进行拉取、存储和查询。

g.cn/direct/31da7451a2e34431b7ce7606e6722ebf.png)

二、kube-state-metrics实战部署

1. 创建RBAC(kube-state-metrics-rbac.yaml)

为 kube-state-metrics 配置必要的权限,允许其访问集群中资源对象的状态信息

---
apiVersion: v1
kind: ServiceAccount
metadata:
  name: kube-state-metrics
  namespace: kube-system
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
  name: kube-state-metrics
rules:
- apiGroups: [""]
  resources: ["nodes", "pods", "services", "resourcequotas", "replicationcontrollers", "limitranges", "persistentvolumeclaims", "persistentvolumes", "namespaces", "endpoints", "secrets"]
  verbs: ["list", "watch"]
- apiGroups: ["extensions"]
  resources: ["daemonsets", "deployments", "replicasets"]
  verbs: ["list", "watch"]
- apiGroups: ["apps"]
  resources: ["statefulsets"]
  verbs: ["list", "watch"]
- apiGroups: ["batch"]
  resources: ["cronjobs", "jobs"]
  verbs: ["list", "watch"]
- apiGroups: ["autoscaling"]
  resources: ["horizontalpodautoscalers"]
  verbs: ["list", "watch"]
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: kube-state-metrics
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: kube-state-metrics
subjects:
- kind: ServiceAccount
  name: kube-state-metrics
  namespace: kube-system

2. 创建Service(kube-state-metrics-svc.yaml)

暴露 kube-state-metrics 服务端口,并添加 Prometheus 自动抓取注解

apiVersion: v1
kind: Service
metadata:
  annotations:
    prometheus.io/scrape: 'true'  # 开启 Prometheus 抓取
  name: kube-state-metrics
  namespace: kube-system
  labels:
    app: kube-state-metrics
spec:
  ports:
  - name: kube-state-metrics
    port: 8080
    protocol: TCP
  selector:
    app: kube-state-metrics

3. 创建Deployment(kube-state-metrics-deploy.yaml)

部署 kube-state-metrics,使用前面创建的 ServiceAccount

apiVersion: apps/v1
kind: Deployment
metadata:
  name: kube-state-metrics
  namespace: kube-system
spec:
  replicas: 1
  selector:
    matchLabels:
      app: kube-state-metrics
  template:
    metadata:
      labels:
        app: kube-state-metrics
    spec:
      serviceAccountName: kube-state-metrics
      containers:
      - name: kube-state-metrics
        image: harbor.local/k8s/kube-state-metrics:2.7.0
        ports:
        - containerPort: 8080

4. 部署所有资源

kubectl apply -f kube-state-metrics-rbac.yaml
kubectl apply -f kube-state-metrics-svc.yaml
kubectl apply -f kube-state-metrics-deploy.yaml

总结

🚀 本篇文章补充了 Kubernetes 集群监控的重要组成部分 —— kube-state-metrics 的部署与配置。通过该组件,解决了仅依赖 Metrics Server 无法全面反映集群资源状态的问题,增强了 Prometheus 对 Kubernetes 对象(如 Deployment、Pod、Node 等)状态指标的采集能力。
✅ 至此,基于 Metrics Server 和 kube-state-metrics 的 Kubernetes 集群监控方案已基本完善。结合 Prometheus、Alertmanager 和 Grafana,这套监控体系能够帮助运维团队全面掌控集群运行状况,及时响应故障,提升整体运维效率和系统稳定性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2380175.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于SpringBoot的小型民营加油站管理系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

技术架构缺乏灵活性,如何应对变化需求?

技术架构缺乏灵活性会导致企业在面临市场变化、用户需求演化或新技术出现时难以及时响应,直接影响产品更新速度与竞争力。要有效应对变化需求,需要从引入模块化架构设计、推动微服务拆分、加强架构治理与决策机制、构建中台与平台化能力等方面系统推进。…

【AI时代】Java程序员大模型应用开发详细教程(上)

目录 一、大模型介绍 1. 大模型介绍 1.1 什么是大模型 1.2 技术储备 1.3 大模型的分类 2. 入门案例 3.Token的介绍 二、提示词工程 1. 好玩的提示词案例 1.1 翻译软件 1.2 让Deepseek绘画 1.3 生成数据 1.4 代码生成 2. 提示词介绍 3. Prompt Engineering最佳实…

虚拟网络编辑器

vmnet1 仅主机模式 hostonly 功能:虚拟机只能和宿主机通过vmnet1通信,不可连接其他网络(包括互联网) vmnet8 地址转换模式 NAT 功能:虚拟机可以和宿主通过vmnet8通信,并且可以连接其他网络,但是…

第31讲 循环缓冲区与命令解析

串口在持续接收数据时容易发生数据黏包(先接收的数据尚未被处理,后面的数据已经将内存覆盖)的情况,循环缓冲区的本质就是将串口接受到的数据马上拷贝到另外一块内存之中。为了避免新来的数据覆盖掉尚未处理的数据,一方…

数据结构(十)——排序

一、选择排序 1.简单选择排序 基本思想:假设排序表为[1,…,n],第i趟排序即从[i,…,n]中选择关键字最小的元素与L[i]交换 eg:给定关键字序列{87,45,78,32,17,65,53&…

美蛋工具箱:一站式解决图片、视频、音频和文档处理需求的聚合神器

先放下载链接:夸克网盘下载 宝子们,今天不啰嗦,直接给大家安利一款超好用的聚合工具,有需要的小伙伴赶紧码住! 今天要介绍的这款工具叫美蛋工具箱,它是一款聚合类工具。这个软件是绿色版的,聚合了图片工具…

python打卡day16

NumPy 数组基础 因为前天说了shap,这里涉及到数据形状尺寸问题,所以需要在这一节说清楚,后续的神经网络我们将要和他天天打交道。 知识点: numpy数组的创建:简单创建、随机创建、遍历、运算numpy数组的索引&#xff1a…

Redis 学习笔记 5:分布式锁

Redis 学习笔记 5:分布式锁 在前文中学习了如何基于 Redis 创建一个简单的分布式锁。虽然在大多数情况下这个锁已经可以满足需要,但其依然存在以下缺陷: 事实上一般而言,我们可以直接使用 Redisson 提供的分布式锁而非自己创建。…

游戏开发实战(一):Python复刻「崩坏星穹铁道」嗷呜嗷呜事务所---源码级解析该小游戏背后的算法与设计模式【纯原创】

文章目录 奇美拉项目游戏规则奇美拉(Chimeras)档案领队成员 结果展示: 奇美拉项目 由于项目工程较大,并且我打算把我的思考过程和实现过程中踩过的坑都分享一下,因此会分3-4篇博文详细讲解本项目。本文首先介绍下游戏规则并给出奇美拉档案。…

02- 浏览器运行原理

文章目录 1. 网页的解析过程浏览器内核 2. 浏览器渲染流程2.1 解析html2.2 生成css规则2.3 构建render tree2.4 布局(Layout)2.5 绘制(Paint) 3. 回流和重绘3.1 回流reflow(1)理解:(2)出现情况 3.2 重绘repaint&#x…

移除链表元素数据结构oj题(力扣题206)

目录 题目描述: 题目解读(分析) 解决代码 题目描述: 给你一个链表的头节点 head 和一个整数 val ,请你删除链表中所有满足 Node.val val 的节点,并返回 新的头节点 。 题目解读(分析&#…

OpenTelemetry 从入门到精通

快速入门 OpenTelemetry 是一个可观测性框架和工具包, 旨在创建和管理遥测数据,如链路、 指标和日志。 重要的是,OpenTelemetry 是供应商和工具无关的,这意味着它可以与各种可观测性后端一起使用, 包括 Jaeger 和 Pro…

【免杀】C2免杀技术(六)进程镂空(傀儡进程)

一、技术定位与核心思想 进程镂空(Process Hollowing)属于 MITRE ATT&CK 中 T1055.012 子技术:先创建一个合法进程并挂起,随后把其主模块从内存“掏空”并替换为恶意映像,最后恢复线程执行,从而让…

Eclipse Java 开发调优:如何让 Eclipse 运行更快?

Eclipse Java 开发调优:如何让 Eclipse 运行更快? 在 Java 开发领域,Eclipse 是一款被广泛使用的集成开发环境(IDE)。然而,随着项目的日益庞大和复杂,Eclipse 的运行速度可能会逐渐变慢&#x…

彻底理解事件循环(Event Loop):从单线程到异步世界的桥梁

关于事件循环被问了很多次,也遇到过很多次,一直没有系统整理,网上搜的,基本明白但总感觉不够透彻,最后,自己动手,丰衣足食,哈哈 一、为什么需要事件循环?—— 单线程的困…

Linux(2)——shell原理及Linux中的权限

目录 一、shell的运行原理 二、Linux中权限的问题 1.权限的概念 2.如何进行用户的切换 1)从普通用户切到超级用户 2)从root用户切到普通用户 3.如何实现提权操作 4.如何将普通用户添加到信用列表(sudoers) ​编辑5.Lin…

如何在线免费压缩PDF文档?

PDF文件太大,通常是因为内部嵌入字体和图片。怎么才能将文件大小减减肥呢,主要有降低图片清晰度和去除相关字体两个方向来实现文档效果。接下来介绍三个免费压缩PDF实用工具。 (一)iLoveOFD在线转换工具 iLoveOFD在线转换工具&a…

汽车装配又又又升级,ethernetip转profinet进阶跃迁指南

1. 场景描述:汽车装配线中,使用EtherNet/IP协议的机器人与使用PROFINET协议的PLC进行数据交互。 2. 连接设备:EtherNet/IP机器人控制器(如ABB、FANUC)与PROFINET PLC(如西门子S7-1500)。 3. 连…

css:无限滚动波浪线

以上是需要实现的效果,一条无限滚动波浪线,可以用来做区块的分割线。 要形成上下交替的圆形,思路是给div加圆角边框,第一个只有上边框,第二个只有下边框。 循环了100个div,这个数量根据自己容器宽度调整&…