Linux CFS 的 switched_from/switched_to:调度类切换的处理
一、简介在Linux内核的调度子系统中任务在不同调度类之间切换是一个复杂且关键的操作。当应用程序调用sched_setscheduler()将任务从普通调度策略SCHED_NORMAL切换为实时策略SCHED_FIFO/SCHED_RR或者从实时策略降级为普通策略时内核必须完成一系列精细的状态迁移操作。CFSCompletely Fair Scheduler作为Linux默认的普通任务调度器通过switched_from_fair()和switched_to_fair()这两个回调函数来处理任务进出CFS调度类的状态转换。这两个函数定义在fair_sched_class调度类中是struct sched_class接口的重要组成部分。掌握这一机制对于以下场景至关重要实时系统调优理解任务在RT与CFS之间切换时的延迟开销容器资源管控分析CFS Bandwidth Control在调度类切换时的节流行为性能问题定位排查因调度类切换导致的vruntime异常或负载不均衡问题内核开发编写自定义调度类或修改现有调度逻辑时的参考实现二、核心概念2.1 调度类sched_class架构Linux内核采用模块化调度类设计每个调度类通过struct sched_class结构体注册一组回调函数。CFS调度类的定义位于kernel/sched/fair.c其核心回调包括const struct sched_class fair_sched_class { .enqueue_task enqueue_task_fair, .dequeue_task dequeue_task_fair, .pick_next_task pick_next_task_fair, .task_tick task_tick_fair, .switched_from switched_from_fair, // 离开CFS时调用 .switched_to switched_to_fair, // 进入CFS时调用 .prio_changed prio_changed_fair, // ... 其他回调 };2.2 调度实体sched_entity与CFS运行队列cfs_rq每个任务在CFS中通过sched_entity结构体表示该实体维护着关键的调度状态vruntime虚拟运行时间决定任务在红黑树中的位置load.weight权重值反映任务的优先级on_rq标记任务是否已在运行队列中cfs_rq指向任务所属CFS运行队列的指针当任务在不同CPU或不同cgroup之间迁移时必须正确处理这些状态字段以保证调度公平性。2.3 调度类切换的触发点调度类切换通常发生在以下场景显式策略变更用户调用sched_setscheduler()修改任务调度策略优先级继承PIRT互斥锁导致的优先级提升/恢复cgroup迁移任务在不同CPU cgroup之间移动时可能涉及调度类变更核心切换逻辑位于check_class_changed()函数void check_class_changed(struct rq *rq, struct task_struct *p, const struct sched_class *prev_class, int oldprio) { if (prev_class ! p-sched_class) { if (prev_class-switched_from) prev_class-switched_from(rq, p); // 旧类清理 p-sched_class-switched_to(rq, p); // 新类初始化 } else if (oldprio ! p-prio) { p-sched_class-prio_changed(rq, p, oldprio); } }三、环境准备3.1 硬件与软件要求组件最低要求推荐配置CPU架构x86_64/arm64x86_64多核内存4GB8GB操作系统Linux 5.4Linux 6.6 LTS内核源码完整源码树带debuginfo的源码编译工具gcc 9gcc 12调试工具perf, ftracebpftrace, kernelshark3.2 内核编译与配置# 1. 获取内核源码 git clone https://github.com/torvalds/linux.git cd linux git checkout v6.6 # 2. 配置内核选项关键调度相关配置 make menuconfig # 必须启用的选项 # CONFIG_SCHED_DEBUGy # 调度器调试 # CONFIG_CGROUP_SCHEDy # cgroup调度支持 # CONFIG_FAIR_GROUP_SCHEDy # CFS组调度 # CONFIG_CFS_BANDWIDTHy # CFS带宽控制 # CONFIG_SCHEDSTATSy # 调度统计信息 # 3. 编译并安装 make -j$(nproc) sudo make modules_install sudo make install3.3 调试环境搭建# 安装调试工具 sudo apt-get install -y \ linux-headers-$(uname -r) \ bpftrace \ trace-cmd \ kernelshark \ sysstat # 挂载debugfs以访问调度器调试信息 sudo mount -t debugfs none /sys/kernel/debug # 启用调度器事件跟踪 echo 1 /sys/kernel/debug/tracing/events/sched/sched_switch/enable echo 1 /sys/kernel/debug/tracing/events/sched/sched_wakeup/enable四、应用场景在工业自动化控制系统中典型的应用场景是PLC可编程逻辑控制器软实时任务与后台数据分析任务的混合部署。假设某产线监控系统需要数据采集任务以SCHED_FIFO策略运行优先级50周期1ms采集传感器数据日志处理任务以SCHED_NORMAL策略运行批量处理历史数据动态降级机制当系统负载过高时将非关键RT任务降级为CFS任务在这种场景下当运维人员通过sched_setscheduler()将日志处理任务从SCHED_NORMAL切换为SCHED_BATCH以优化吞吐量时内核会触发switched_from_fair()完成CFS状态的清理反之当系统负载降低需要将某个CFS任务提升为RT任务时switched_to_fair()的逆过程会被执行。理解这两个函数的底层实现有助于预测调度延迟、分析上下文切换开销并设计合理的任务迁移策略。五、实际案例与步骤5.1 案例一从CFS切换到RT类switched_from_fair分析当任务从CFS切换到RT调度类时switched_from_fair()负责清理任务在CFS中的状态。// 位于 kernel/sched/fair.c static void switched_from_fair(struct rq *rq, struct task_struct *p) { // 1. 将任务从其所属的cfs_rq中分离 detach_task_cfs_rq(p); // 2. 如果启用了CFS带宽控制取消任务的节流状态 if (cfs_bandwidth_used()) task_throttle_cancel(p); }detach_task_cfs_rq()的核心逻辑static void detach_task_cfs_rq(struct task_struct *p) { struct sched_entity *se p-se; struct cfs_rq *cfs_rq cfs_rq_of(se); // 如果任务当前在运行队列上先出队 if (task_on_rq_queued(p)) { dequeue_entity(cfs_rq, se, DEQUEUE_SAVE | DEQUEUE_MOVE); } // 分离任务组关联如果启用了组调度 #ifdef CONFIG_FAIR_GROUP_SCHED if (se-cfs_rq) { // 更新cfs_rq的负载统计 update_cfs_rq_load_avg(cfs_rq); // 从父调度实体链中分离 for_each_sched_entity(se) { struct cfs_rq *qcfs_rq cfs_rq_of(se); if (qcfs_rq-tg) set_task_rq(p, task_cpu(p)); } } #endif // 清除任务在CFS中的运行时统计关联 se-cfs_rq NULL; }操作步骤与验证# 步骤1创建测试任务并监控其调度状态 cat /tmp/test_task.c EOF #include stdio.h #include stdlib.h #include sched.h #include unistd.h #include sys/syscall.h int main() { pid_t pid getpid(); struct sched_param param; printf(Task %d started with policy %d\n, pid, sched_getscheduler(0)); // 模拟工作负载 for (int i 0; i 5; i) { sleep(1); // 切换到SCHED_FIFO param.sched_priority 50; if (sched_setscheduler(0, SCHED_FIFO, param) -1) { perror(sched_setscheduler); exit(1); } printf(Switched to SCHED_FIFO, priority %d\n, param.sched_priority); sleep(1); // 切换回SCHED_NORMAL param.sched_priority 0; if (sched_setscheduler(0, SCHED_NORMAL, param) -1) { perror(sched_setscheduler); exit(1); } printf(Switched back to SCHED_NORMAL\n); } return 0; } EOF gcc -o /tmp/test_task /tmp/test_task.c # 步骤2使用ftrace跟踪调度类切换 sudo trace-cmd start -e sched_switch -e sched_wakeup -e sched_setscheduler /tmp/test_task sudo trace-cmd stop sudo trace-cmd report /tmp/sched_trace.txt # 步骤3分析trace结果观察switched_from/switched_to调用路径 grep -A 5 -B 5 sched_setscheduler\|switched_from\|switched_to /tmp/sched_trace.txt5.2 案例二从RT类切换到CFSswitched_to_fair分析当任务从RT类降级到CFS时switched_to_fair()负责初始化任务在CFS中的状态static void switched_to_fair(struct rq *rq, struct task_struct *p) { // 1. 将任务附加到目标cfs_rq attach_task_cfs_rq(p); // 2. 如果启用了带宽控制且任务需要节流设置节流状态 if (cfs_bandwidth_used() task_needs_throttling(p)) task_throttle_setup(p); // 3. 设置任务的最大允许容量与CPU容量管理相关 set_task_max_allowed_capacity(p); // 4. 如果任务在运行队列上检查是否需要抢占当前任务 if (task_on_rq_queued(p)) { /* * 任务很可能从sched_rt切换而来如果当前正在运行则触发调度 * 否则检查是否还能抢占当前任务 */ if (rq-curr p) resched_curr(rq); // 触发重新调度 else check_preempt_curr(rq, p, 0); // 检查抢占条件 } }attach_task_cfs_rq()的核心逻辑static void attach_task_cfs_rq(struct task_struct *p) { struct sched_entity *se p-se; struct cfs_rq *cfs_rq cfs_rq_of(se); // 设置任务所属的cfs_rq se-cfs_rq cfs_rq; // 初始化或同步vruntime if (!se-avg.last_update_time) { // 新加入CFS的任务需要合理设置初始vruntime place_entity(cfs_rq, se, 0); } else { // 从其他CPU迁移或从RT降级同步min_vruntime基准 se-vruntime cfs_rq-min_vruntime; } // 如果任务在运行队列上执行入队操作 if (task_on_rq_queued(p)) { enqueue_entity(cfs_rq, se, ENQUEUE_WAKEUP); update_load_avg(cfs_rq, se, 0); } #ifdef CONFIG_FAIR_GROUP_SCHED // 更新任务组层级结构 if (se-cfs_rq-tg) { update_cfs_rq_load_avg(cfs_rq); propagate_entity_cfs_rq(se); } #endif }vruntime同步的关键性当任务从RT切换到CFS时必须正确处理vruntime否则会导致严重的公平性问题// vruntime同步示例代码概念性展示 static inline void sync_vruntime(struct sched_entity *se, struct cfs_rq *cfs_rq) { /* * 如果se-vruntime是相对值存储时减去了原cfs_rq的min_vruntime * 则需要加上新cfs_rq的min_vruntime进行还原 */ if (se-sum_exec_runtime 0) { // 新任务或首次进入CFS放置在合适位置 se-vruntime cfs_rq-min_vruntime calc_delta_fair(sysctl_sched_latency, se); } }操作步骤与验证# 步骤1使用bpftrace跟踪switched_to_fair调用 cat /tmp/trace_switched_to.bt EOF #!/usr/bin/env bpftrace kprobe:switched_to_fair { printf(switched_to_fair called for pid %d on CPU %d\n, ((struct task_struct *)arg1)-pid, cpu); } kprobe:attach_task_cfs_rq { printf(attach_task_cfs_rq called for pid %d\n, ((struct task_struct *)arg0)-pid); } kprobe:enqueue_entity { printf(enqueue_entity: se%p, vruntime%lu\n, arg1, ((struct sched_entity *)arg1)-vruntime); } EOF sudo bpftrace /tmp/trace_switched_to.bt # 步骤2运行测试程序观察切换过程 sudo chrt -f 50 /tmp/test_task # 步骤3检查CFS运行队列状态 cat /sys/kernel/debug/sched/debug | grep -A 10 cfs_rq5.3 案例三CFS带宽控制在调度类切换中的应用在容器化环境中CFS Bandwidth Control用于限制cgroup的CPU使用量。当任务在不同cgroup或调度类之间迁移时节流状态需要正确处理// 带宽控制相关的辅助函数内核6.x版本 static inline bool task_needs_throttling(struct task_struct *p) { struct cfs_bandwidth *cfs_b task_group(p)-cfs_bandwidth; // 检查任务所属组的运行时是否已耗尽 if (cfs_b-quota RUNTIME_INF) return false; return cfs_b-runtime 0; } static inline void task_throttle_setup(struct task_struct *p) { struct sched_entity *se p-se; // 设置节流标记 se-sched_delayed 1; // 启动节流计时器 start_cfs_bandwidth_timer(); } static inline void task_throttle_cancel(struct task_struct *p) { struct sched_entity *se p-se; // 清除节流标记 se-sched_delayed 0; // 如果任务因节流而延迟调度立即触发调度 if (task_on_rq_queued(p) p-state TASK_RUNNING) { resched_curr(task_rq(p)); } }配置CFS带宽控制并测试# 步骤1创建带带宽限制的cgroup sudo mkdir -p /sys/fs/cgroup/cpu/test_cgroup echo 100000 | sudo tee /sys/fs/cgroup/cpu/test_cgroup/cpu.cfs_quota_us echo 1000000 | sudo tee /sys/fs/cgroup/cpu/test_cgroup/cpu.cfs_period_us # 步骤2启动测试任务并加入cgroup sudo echo $$ | sudo tee /sys/fs/cgroup/cpu/test_cgroup/cgroup.procs # 步骤3运行CPU密集型任务并观察节流情况 stress-ng --cpu 4 --timeout 60 # 步骤4监控节流统计 watch -n 1 cat /sys/fs/cgroup/cpu/test_cgroup/cpu.stat # 步骤5在任务运行期间切换调度策略观察switched_from_fair中的节流处理 sudo chrt -f 50 -p pid_of_stress_ng_thread sudo chrt -o -p 0 pid_of_stress_ng_thread六、常见问题与解答Q1为什么任务从CFS切换到RT后重新切回CFS时vruntime会异常A这通常是由于min_vruntime基准不一致导致的。在switched_from_fair()中任务被detach时会保存相对vruntime减去min_vruntime而在switched_to_fair()中需要正确还原。如果CPU在此期间发生了负载均衡min_vruntime可能已变化导致任务获得不公平的CPU份额。排查方法# 启用调度器调试输出 echo 1 /sys/kernel/debug/sched/verbose # 使用ftrace跟踪vruntime变化 trace-cmd record -e sched:sched_stat_runtime -e sched:sched_switch trace-cmd report | grep pidQ2调度类切换时出现死锁或长时间延迟如何定位A调度类切换涉及rq-lock和p-pi_lock的复杂锁交互。switched_from()回调可能会释放rq-lock而switched_to()通常在持有锁的情况下执行。排查方法# 启用lockdep检测锁问题 CONFIG_LOCKDEPy CONFIG_LOCK_STATy # 查看锁争用统计 cat /proc/lock_stat | head -50 # 使用perf分析调度延迟 perf sched record -- sleep 10 perf sched latencyQ3CFS带宽控制在调度类切换后未正确生效A检查switched_from_fair()和switched_to_fair()中的cfs_bandwidth_used()判断。如果带宽控制未启用CONFIG_CFS_BANDWIDTH未设置或运行时禁用节流逻辑会被跳过。验证方法# 检查内核配置 grep CONFIG_CFS_BANDWIDTH /boot/config-$(uname -r) # 检查运行时启用状态 cat /proc/sys/kernel/sched_cfs_bandwidth_slice_us # 查看任务是否被正确节流 cat /sys/fs/cgroup/cpu/cgroup/cpu.statQ4多核系统中任务在不同CPU之间迁移与调度类切换的交互问题Amigrate_task_rq_fair()处理CPU迁移switched_from/to_fair()处理调度类切换。当两者同时发生时需要确保detach_task_cfs_rq()和attach_task_cfs_rq()的正确调用顺序。排查方法# 监控任务迁移事件 perf trace -e sched:sched_migrate_task -e sched:sched_setscheduler # 检查迁移后的运行队列状态 cat /sys/kernel/debug/sched/debug | grep -E cpu#|cfs_rq|curr七、实践建议与最佳实践7.1 调试技巧使用dynamic debug输出调度类切换详情# 启用fair.c文件的动态调试 echo file kernel/sched/fair.c p /sys/kernel/debug/dynamic_debug/control # 查看dmesg输出 dmesg -w | grep -E switched_from|switched_to|attach|detach通过/proc/sched_debug分析运行队列状态# 提取特定任务的调度信息 grep -A 20 task pid /proc/sched_debug7.2 性能优化建议避免频繁的调度类切换每次切换都涉及红黑树操作和锁竞争高频切换会引入显著开销。合理设置CFS带宽控制参数在容器环境中确保cfs_quota_us和cfs_period_us的比值反映真实的CPU需求避免因节流导致的频繁switched_from/to处理。NUMA感知在NUMA系统中任务迁移时应考虑numa_node与cfs_rq的亲和性减少跨节点内存访问开销。7.3 常见错误规避错误类型表现解决方案vruntime漂移任务切换后CPU份额异常检查attach_task_cfs_rq中的min_vruntime同步负载统计不准确top显示的CPU使用率异常确保update_cfs_rq_load_avg在detach/attach时被调用节流状态残留任务离开受限cgroup后仍被节流验证switched_from_fair中的task_throttle_cancel调用八、总结与应用场景本文深入剖析了Linux CFS调度器中switched_from_fair()和switched_to_fair()的实现机制这两个回调函数是调度类切换时的关键路径。通过detach_task_cfs_rq()和attach_task_cfs_rq()的配对操作内核确保了任务在离开和进入CFS时其调度实体状态、vruntime基准和负载统计的正确性。在实时Linux系统PREEMPT_RT和云原生容器环境中理解这一机制尤为重要实时系统当RT任务临时降级为CFS任务时需要保证平滑过渡避免优先级反转容器平台Kubernetes等编排系统频繁调整任务的cgroup和调度策略正确的状态迁移保证了资源隔离的可靠性建议读者在实际项目中结合ftrace、bpftrace等工具对调度类切换进行动态跟踪深入理解内核调度器的运行时行为。同时关注Linux内核邮件列表中关于调度子系统的最新补丁如2024年提出的per-task throttling改进持续跟踪这一领域的技术演进。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2519572.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!