图文轻松说透 K8S Pod 各种驱逐场景

news2025/7/21 4:32:59

图文轻松说透 K8S Pod 各种驱逐场景

Kubernetes Pod 被驱逐是什么意思?

它们被终止,通常是没有足够资源的结果。但是为什么会这样呢?

驱逐是指派给节点的Pod 被终止的过程。Kubernetes 中最常见的情况之一是Preemption,为了在资源有限的节点中调度新的 Pod,需要终止另一个 Pod 以释放资源。

此外,Kubernetes 会不断检查资源并在需要时驱逐 Pod,这个过程称为节点压力驱逐

在本文中,您将发现:

文章目录

  • 图文轻松说透 K8S Pod 各种驱逐场景
    • Pod 被驱逐的原因:抢占和节点压力
    • 抢占式驱逐
      • Pod 调度
        • 过滤
        • 计分
      • Pod 优先级
      • 优先级示例
    • 节点压力驱逐
      • 服务质量等级
        • Guaranteed
        • Burstable
        • BestEffort
    • 其他类型的驱逐
      • API 发起的驱逐
      • 基于污点的驱逐
      • node 级别排空(drain)
    • Prometheus 中的 Pod 驱逐监控
    • 结论
    • 说明

Pod 被驱逐的原因:抢占和节点压力

在 Kubernetes 中发生 Pod 驱逐的原因有多种。最重要的是:

  • 抢占
  • 节点压力驱逐

抢占式驱逐

抢占是这样一个过程:如果一个新的 Pod 需要被调度,但是没有任何合适的节点拥有足够的资源,那么 kube-scheduler 将通过驱逐(终止)一些优先级较低的 Pod 来检查新的 Pod 是否可以成为那个节点的一部分。

我们先了解一下 Kubernetes 调度是如何工作的。

Pod 调度

Kubernetes调度是将 Pod分配给节点的过程。

默认情况下,有一个 Kubernetes 实体负责调度,称为kube-scheduler将在控制平面中运行。Pod 将以 Pending 状态启动,直到找到匹配的节点。

将 Pod 分配给节点的过程遵循以下顺序:

  1. 过滤
  2. 计分

过滤

过滤步骤中, kube-scheduler将选择当前 Pod 可能放置的所有节点。此处将考虑 Taints 和 Tolerations 等功能。完成后,它将有一个适合该 Pod 的节点列表。

计分

评分步骤中, kube-scheduler将获取上一步的结果列表并为每个节点分配一个分数。这样,候选节点从最适合到最不适合排序。如果两个节点的分数相同,kube-scheduler 会随机对它们进行排序。

Filtering and Scoring process

但是,如果没有适合 Pod 运行的节点怎么办?

在这种情况下,Kubernetes 将启动抢占过程,尝试驱逐优先级较低的 Pod,以便分配新的 Pod。

Pod 优先级

在抢占过程中如何防止特定 Pod 被驱逐?

很有可能,一个特定的 Pod 对你来说很重要,永远不应该被终止。

这就是 Kubernetes 具有Priority Classes的原因。

优先级类是一个 Kubernetes 对象,它允许我们将数字优先级值映射到特定的 Pod。那些具有更高价值的 Pod 被归类为更重要并且不太可能被驱逐。

您可以使用以下方式查询当前的优先级:

kubectl get priorityclasses
kubectl get pc

NAME                      VALUE        GLOBAL-DEFAULT   AGE
system-cluster-critical   2000000000   false            2d
system-node-critical      2000001000   false            2d

优先级示例

让我们使用 Lovenstein 先生的 Berry Club 漫画做一个实际的例子:

https://www.mrlovenstein.com/
https://tapas.io/episode/220482

共有三个 Pod 分别代表蓝莓、树莓和草莓:

NAME         READY   STATUS             RESTARTS   AGE
blueberry    1/1     Running            0          4h41m
raspberry    1/1     Running            0          58m
strawberry   1/1     Running            0          5h22m

并且有两个优先等级:真莓和假莓。第一个将具有更高的值,表示更高的优先级。

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: trueberry
value: 1000000
globalDefault: false
description: "This fruit is a true berry"

apiVersion: scheduling.k8s.io/v1
kind: PriorityClass
metadata:
  name: falseberry
value: 5000
globalDefault: false
description: "This fruit is a false berry"
  • 蓝莓 将具有 trueberry 优先级(值 = 1000000)
  • 树莓和草莓都将具有 falseberry 优先级(值 = 5000)

这意味着在抢占的情况下,树莓和草莓更有可能被驱逐,为更高优先级的 Pod 腾出空间。

然后通过将此添加到 Pod 定义来将优先级类分配给 Pod:

 priorityClassName: trueberry

现在让我们尝试再添加三种水果,但要稍加改动。所有新水果都将包含更高的优先级,称为trueberry

由于三个新水果有节点无法满足的内存或 CPU 要求,kubelet驱逐所有优先级低于新水果的 Pod。Blueberry 保持运行,因为它具有更高的优先级。

NAME         READY   STATUS             RESTARTS   AGE
banana       0/1     ContainerCreating  0          2s
blueberry    1/1     Running            0          4h42m
raspberry    0/1     Terminating        0          59m
strawberry   0/1     Terminating        0          5h23m
tomato       0/1     ContainerCreating  0          2s
watermelon   0/1     ContainerCreating  0          2s

Kubernetes Priority Classes 实例

这是最终结果:

NAME         READY   STATUS             RESTARTS   AGE
banana       1/1     Running            0          3s
blueberry    1/1     Running            0          4h43m
tomato       1/1     Running            0          3s
watermelon   1/1     Running            0          3s

节点压力驱逐

除了抢占,Kubernetes 还会不断检查节点资源,如磁盘压力、CPU 或内存不足 (OOM)。

如果节点中的资源(如CPU内存)消耗达到某个阈值kubelet将开始驱逐 Pod 以释放资源。将考虑服务质量 (QoS) 来确定驱逐顺序。

服务质量等级

在 Kubernetes 中,Pod 提供三个QoS 类之一,这将定义在缺乏资源的情况下它们被驱逐的可能性,从不太可能到更有可能:

  • Guaranteed 有保证的
  • Burstable 可爆发的
  • BestEffort 尽最大努力

这些 QoS 等级是如何分配给 Pod 的?

这是基于对 CPU和内存的限制和请求。提醒一句:

  • Limits 限制:容器可以使用的最大资源量。
  • Requests 请求:容器运行所需的最小资源量。

有关限制和请求的更多信息,请查看通过示例了解 Kubernetes 限制和请求

https://sysdig.com/blog/kubernetes-limits-requests/

Kubernetes 中的 QoS 类

Guaranteed

如果满足以下条件,Pod 将分配有保证的 QoS 等级:

  • Pod 中的所有容器都为 CPU 和内存设置了限制和请求。
  • Pod 中的所有容器都具有相同的 CPU Limit 和 CPU Request 值。
  • Pod 中所有容器都具有相同的 memory Limit 和 memory Request 值

Guaranteed Pod 在正常情况下不会被驱逐。

Burstable

如果满足以下条件,Pod 将分配有可突发的 QoS 等级:

  • 它没有 Guaranteed QoS 等级。
  • 已为 Pod 中的容器设置了 Limits 或 Requests 。

Burstable Pod 可以被驱逐,但比下一个类别更不可能。

BestEffort

如果出现以下情况,Pod 将分配有 BestEffort 的 QoS 等级:

  • Pod 中的任何容器都没有设置限制和请求。

在发生节点压力过程的情况下,BestEffort Pod 被驱逐的可能性最大。

重要提示:Limits 和 Requests 中可能还有其他资源,如 ephemeral-storage,但它们不用于 QoS Class 计算。

Quality of Service cheatsheet

如前所述,QoS 类将被考虑用于节点压力驱逐。这是内部发生的过程。

kubelet 按照以下顺序对要驱逐的 Pod 进行排序:

  1. BestEffort 或 Burstable使用量超过 requests 的 Pod
  2. Burstable使用量低于 requests 的 Pod 或者 GuaranteedPod

Kubernetes 将优先从第 1 组中驱逐 Pod,然后才会尝试在第 2 组驱逐。

上面的一些要点:

  • 如果您在容器中添加非常低的请求,它们的 Pod 可能会被分配到组 1,这意味着它更有可能被驱逐。
  • 你无法判断哪个特定的 Pod 将被驱逐,只是 Kubernetes 会尝试在第 2 组之前驱逐第 1 组中的 Pod。
  • GuaranteedPod 通常不会被驱逐:kubelet不会为了安排其他 Pod 而驱逐它们。但是如果某些系统服务需要更多资源,kubelet 将在必要时终止Guaranteed Pod

其他类型的驱逐

本文重点介绍抢占和节点压力驱逐,但 Pod 也可以通过其他方式驱逐。例子包括:

API 发起的驱逐

可以使用 Kubernetes Eviction API 请求按需驱逐一个节点中的 Pod。

https://kubernetes.io/docs/reference/generated/kubernetes-api/v1.25/#create-eviction-pod-v1-core

#公众号:进击云原生 注:
请记住,Eviction API 不同于 Delete Pod,前者是 CREATE 动作,请求会创建 pods/eviction 子资源,后者是 DELETE 动作请求

基于污点的驱逐

借助 Kubernetes Taints and Tolerations,您可以指导如何将 Pod 分配给节点。但是,如果您NoExecute对现有节点应用污点,所有不能容忍它的 Pod 将立即被驱逐。

node 级别排空(drain)

有时节点变得不可用或者不想再在这些节点上工作时。kubectl cordon命令会阻止在其上安排新的 Pod,运行kubectl drain nodename也可以一次完全清空所有当前节点上 Pod。节点中的所有 Pod 都将被驱逐,遵守其正常终止限期。

Prometheus 中的 Pod 驱逐监控

可以使用 Prometheus 通过执行以下操作轻松监控 Pod 驱逐:

kube_pod_status_reason{reason="Evicted"} > 0

Prometheus 监控中被驱逐的 Pod

这将显示集群中所有被驱逐的 Pod。您还可以将它与 kube_pod_status_phase{phase="Failed"}结合,以提醒那些在 Pod 出现故障后被驱逐的。

如果想深入挖掘,请查看以下有关在 Prometheus 中监控资源的文章:

  • 如何调整 Kubernetes 资源限制

    https://sysdig.com/blog/kubernetes-resource-limits/

  • Kubernetes 容量规划:如何调整集群请求的大小

    https://sysdig.com/blog/kubernetes-capacity-planning/

结论

抢占(preemption)期间,Kubernetes 将尝试通过驱逐优先级较低的 Pod 释放资源,来安排新的 Pod 。使用优先级类别(Priority Classes),可以控制哪些 Pod 在抢占时更有可能继续运行,因为它们被驱逐的可能性较小。

在执行期间,Kubernetes 将检查节点压力并在需要时驱逐 Pod。使用 QoS classes,可以控制在节点压力的情况下哪些 Pod 更有可能被驱逐。

内存和 CPU 是节点中的重要资源,您需要配置 Pod、容器和节点以使用适量的内存和 CPU。如果您合理地管理这些资源,不仅可以降低成本,还可以确保重要流程无论如何都能继续运行。

说明

请关注 危 ❤ 工中号【进击云原生】,更有free资源供您学习

本文由mdnice多平台发布

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/17156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

基于PHP+MySQL健身俱乐部系统的设计与实现

随着时代的发展和人们对生活的热爱,健身已经成为人们工作之余的一种热爱,相对应的各种健身俱乐部也如雨后春笋般出现,处于宣传的目的各类健身俱乐部网站也不断的出现,处于对健身俱乐部的宣传作用,我们通过PHP语言和MYSQL数据库开发了健身俱乐部系统 PHP:MySQL健身俱…

笔试强训第29天(有假币+求正数数组的最小不可组成和)

单选 A选项:当内存访问越界的时候,线程会收到信号,进而进行信号处理。调用信号处理函数。 B选项:ACM时间。 A:最后访问时间,文件被读取而更新的时间 C:状态修改时间,文件的属性或者权…

pymsql模块+事务+mysql 注入+数据库备份和恢复

import pymysqlconn pymysql.connect(host127.0.0.1, userroot, password123456, databasehomework) # cur conn.cursor(cursorpymysql.cursors.DictCursor)#查询返回字典 cur conn.cursor() # cursor游标,默认返回元组 try:cur.execute(select * from students…

前端加密与解密

插件加密 MD5加密(不可逆) MD5加密是不可逆的,相当于是插件加密,当然你也可以把他的方法抄过来自己实现。 MD5.js是通过前台js加密的方式对用户信息,密码等私密信息进行加密处理的工具,前端用的比较多。…

【毕业设计】深度学习手势识别检测系统 - python

文章目录1 前言2 项目背景3 任务描述4 环境搭配5 项目实现5.1 准备数据5.2 构建网络5.3 开始训练5.4 模型评估6 识别效果7 最后1 前言 🔥 Hi,大家好,这里是丹成学长的毕设系列文章! 🔥 对毕设有任何疑问都可以问学长…

【ASE+python学习】批量实现将含有空位的结构进行氢饱和(实际就是在某个位置添加氢原子)

批量实现将含有空位的结构进行氢饱和任务大纲任务思路氢原子相对位置计算代码实现-单个结构加氢导入所需库/包计算氢原子坐标给结构加氢运行结果代码实现-批量结构加氢导入相关库/包遍历文件夹内所有结构,并逐次给结构加氢批量实现的逻辑与结果在搬砖过程中&#xf…

【教学类-15-01】20221115《学号(姓名)描字帖-A4横版-竖切》(中班)

效果展示 浅蓝色打印纸(灰色字体) 背景需求: 在中3班的Python学具实验中,发现至少有3位幼儿明确表示自己不会写学号,还有3位幼儿书写的学号是镜像字(两个数字位置互换、两个数字都左右镜像、2和5上下镜像等…

【树莓派不吃灰】命令篇⑤ ps -ef | grep xxx | grep -v grep | wc -l 命令

目录1. 简介2. grep -v grep 命令作用2.1 ps -ef | grep python32.2 grep -v grep❤️ 博客主页 单片机菜鸟哥,一个野生非专业硬件IOT爱好者 ❤️❤️ 本篇创建记录 2022-11-18 ❤️❤️ 本篇更新记录 2022-11-18 ❤️🎉 欢迎关注 🔎点赞 &am…

让 Serverless 更普惠,阿里云函数计算 FC 宣布全面降价,最大幅度达 37.5%

背景 11 月 5 日,2022 杭州 云栖大会上,阿里云宣布函数计算 FC 开启全面降价,vCPU 单价降幅 11% ,其他的各个独立计费项最高降幅达 37.5% 。 本次云栖大会上,阿里云智能总裁张建锋表示,以云为核心的新型…

动态分区算法(头歌实验)第1关:首次适应算法。第2关:最佳适应算法。

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 题目: 第1关:首次适应算法 任务描述 假设初始状态下可用的内存空间为55MB,并有如下的请求序列: 作业1申请15MB 作业2申请30M…

Yolov5+图像分割+百度AI接口——车牌实时检测识别系统

Hallo,各位小伙伴大家好呀!这两天一直在肝项目,都是关于计算机视觉方面的,所以这两天一直也没有更新(真的不是我懒)!在这个过程中我对Yolov5有了更深刻的理解,在原有的Yolov5框架上增…

14.4、SpringWebFlux-2

14.4、SpringWebFlux-2 14.4.3、SpringWebFlux执行流程和核心 API SpringWebFlux 基于 Reactor,默认容器是 Netty,Netty 是高性能的 NIO 框架,异步非阻塞(AIO,是 NIO 的升级)的框架 14.4.3.1、执行流程 …

jrtplib开源库系列之三:jrtplib发送接收数据流程

说明 前面2篇文章主要说明了如何安装jrtplib库,以及对example1进行了说明,这篇文章主要说下jrtplib库数据的收发流程。 数据收发流程 从例子1就可以很好的说明jrtplib的使用是非常简单的,主要分为以下几步 1. 设置会话参数(比如时间戳&am…

同花顺_代码解析_技术指标_C

本文通过对同花顺中现成代码进行解析,用以了解同花顺相关策略设计的思想 CBJX 成本均线 成本价均线不同于一般移动平均线系统,成本价均线系统首次将成交量引入均线系统,充分提高均线系统的可靠性。成本均线不容易造成虚假信号或骗线&#xf…

牛客网项目-开发注册功能

前言 本文是对牛客网项目的总结,本文主要讲解页面注册逻辑 当我们点击首页的注册按钮时,会跳转到注册页面,然后再祖册页面提交账号,密码邮箱后会跳转到首页或者直接登录页面进行登录,这个操作可以自己设定 【设计逻辑…

SAP ABAP BAPI_SALESORDER_CREATEFROMDAT2 成本中心 kostl

BAPI_SALESORDER_CREATEFROMDAT2提供参数无成本中心字段,所以需要用扩展字段实现。 BAPE_VBAK: BAPE_VBAKX VBAKKOZ VBAKKOZX 封装扩展结构: DATA: LS_EXTENSION TYPE BAPIPAREX, LT_EXTENSION TYPE TABLE OF BAPIPAREX. DATA: LS_B…

目标检测论文解读复现之十一:基于特征融合与注意力的遥感图像小目标检测

前言 此前出了目标改进算法专栏,但是对于应用于什么场景,需要什么改进方法对应与自己的应用场景有效果,并且多少改进点能发什么水平的文章,为解决大家的困惑,此系列文章旨在给大家解读最新目标检测算法论文&#xff0c…

【MySQL】5.触发器

文章目录1. 触发器概述2. 触发器的相关语法3. 触发的NEW与OLD4. 总结1. 触发器概述 触发器,就是一种特殊的存储过程。触发器和存储过程一样是一个能够完成特定功能、存储在数据库服务器上的SQL片段,但是触发器无需调用,当对数据库表中的数据…

python批量读取nc气象数据并转为tif

python批量nc数据转tif 各类地理数据中,NC格式是很常见的,然而这种格式ArcGIS是无法打开的。一旦下载的话nc也是多时序的(多年、多月等等),让我们看看如何批量操作吧。 直接上代码: import numpy as np …

[附源码]Python计算机毕业设计本科生外出请假管理信息系统

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…