NCCL watchdog timeout 先别只会加 timeout:PyTorch 新出的 Flight Recorder,真正值钱的是能把第一处 collective 分歧揪出来
NCCL watchdog timeout 先别只会加 timeout:PyTorch 新出的 Flight Recorder,真正值钱的是能把第一处 collective 分歧揪出来很多人第一次遇到NCCL watchdog timeout,第一反应都是三件事:查网络、调大 timeout、怀疑 NCCL 又炸了。这个顺序经常不够用。因为在很多真实训练任务里,超时只是最后一个症状,真正先出问题的可能是某个 rank 走成了all_gather,另一个 rank 却走成了reduce_scatter;也可能是同一个 collective 名字没变,但输入 shape 已经悄悄分叉。PyTorch 最近单独推出 Flight Recorder,真正值钱的地方不在“多记一份日志”,而在它开始帮你回答一个更关键的问题:第一个不一致的 collective,到底发生在什么地方、是什么类型的不一致。这篇文章不复读 NCCL 原理,也不把排查建议写成“先试试重启”。我想给你一个更实用的工具箱:什么时候该开 Flight Recorder,哪些环境变量值得第一轮就配上,torchfrtrace到底在分析什么,以及它为什么比只盯着 watchdog 最后一行报错更接近问题根因。别把 watchdog timeout 当成根因,它更像“有人先在前面掉队了”/
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2604893.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!