CANN/HCCL 典型算子行为分析
典型算子行为分析【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl以Atlas 800T A2双机场景下AllReduce算子的Profiling数据为例介绍如何将通信算子的任务编排与Profiling中的task对应下图为其中一个rank上完整的AllReduce算子执行流程同时将AllReduce的各个算子执行步骤与Profiling进行对应。将通信数据从用户输入内存拷贝至HCCL Buffer内存中。节点内实现ReduceScatter通信语义包括notify前同步、ReduceInline内存拷贝、随路运算以及notify尾同步。节点间实现AllReduce通信语义。由于节点间通过RoCE来实现notify同步及数据的通信且notify record任务及数据通信任务均已RDMASend下发WQE的形式实现因此在Profiling中会以RDMASendnotify record notify wait的组合对应着机间前同步和尾同步任务同时会以RDMASend数据通信 RDMASendnotify record notify wait的组合对应着机间的数据通信。此外可以在RDMASend数据通信任务的详细信息中获取该任务的本端、对端、数据量及带宽信息等。节点内实现AllGather通信语义包括notify前同步、memcpy内存拷贝以及notify尾同步。将通信数据从HCCL Buffer拷贝到用户输出内存中。【免费下载链接】hccl集合通信库Huawei Collective Communication Library简称HCCL是基于昇腾AI处理器的高性能集合通信库为计算集群提供高性能、高可靠的通信方案项目地址: https://gitcode.com/cann/hccl创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2599836.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!