华为AI产品和技术由浅入深巅峰解析
华为人工智能数据中心技术介绍系列 之一Ascend昇腾芯片品牌Ascend的主要指标Ascend的命名逻辑昇腾发展历史1. 第一代昇腾2018-20202. 第二代昇腾2021-20233. 第三代昇腾2024-20254. 未来规划2026Atlas服务器品牌Atlas主要关心的Atlas的命名逻辑加速卡产品整机产品集群产品生态组件服务器操作npu-smi info返回结果的具体解释NPU之间的拓扑连接信息硬切分Ascend昇腾芯片品牌华为自研的 AI 处理器 / NPU 架构与芯片系列的品牌Ascend的主要指标算力(TOPS/TFLOPS)精度(FP16/BF16/INT8)内存带宽功耗芯片互联(HCCS)可以理解为“这块硅到底能算多快”Ascend的命名逻辑按芯片代际 能力定位芯片代际定位310低功耗推理910高端训练920高端训练目前产量少后缀含义后缀定位典型型号A初代量产 / 标准基线910A, 910ProA, 910PreminumAB主流量产优化910B, 910B2/B3/B4CChiplet 双芯合封910C1/C2/C3/C4昇腾发展历史1. 第一代昇腾2018-2020昇腾310面向边缘推理场景采用12nm工艺INT8算力16 TOPS功耗8W主打低延迟推理如摄像头、车载设备。昇腾910首款数据中心级训练芯片7nm工艺FP16算力256 TFLOPS功耗310W支持华为全栈AI生态MindSpore、ModelArts。2. 第二代昇腾2021-2023昇腾910B7nm EUV工艺优化FP16算力提升至376 TFLOPS支持更高效的大模型训练适配华为云昇腾AI云服务。昇腾310B边缘端升级版支持多模态推理视觉、语音集成轻量级MindSpore Lite框架。3. 第三代昇腾2024-2025昇腾910C用于CloudMatrix 384超节点集群单节点集成384颗芯片支持万亿参数大模型训练显存带宽优化至3TB/s以上。昇腾320面向边缘计算的下一代芯片5nm工艺能效比提升50%支持端-边-云协同推理。4. 未来规划2026昇腾920预计采用3nm工艺FP16算力目标突破1 PFLOPS支持FP8精度和动态稀疏计算适配MoE架构大模型。Atlas服务器品牌使用 Ascend 芯片封装出来的具体产品模块、加速卡、服务器、集群的品牌它是工程产品线基于Ascend芯片做成的工程化交付它包括模块PCIe设备边缘盒子服务器超级节点/集群Atlas主要关心的怎么放进机房怎么上架、供电、散热怎么部署业务怎么规模化交付可以理解为“怎么把算力真正用起来”Atlas的命名逻辑按产品形态 场景加速卡产品产品类型做什么用什么芯片Atlas 200I DK A2学校教学课程、算法验证Ascend 310B3Atlas 200I A2加速模块集成于边端智能设备、机器人、无人机中提供AI算力昇腾 310/ 910Atlas 300I A2 推理卡小规模推理昇腾 310BAtlas 300I Duo 推理卡小规模推理两颗昇腾 310P3Atlas 300V Pro 视频解析卡推理视频解析昇腾 310P3Atlas 300I Pro 推理卡小规模推理昇腾 310P3Atlas 300V 视频解析卡推理视频解析整机产品产品类型做什么用什么芯片Atlas 500 A2 智能小站面向边缘应用的产品,形似机顶盒可室外部署Atlas 800T A3 超节点服务器预训练/后训练服务器单机8 * 昇腾910, 多机可组成384卡超节点Atlas 800I A3 超节点服务器推理服务器单机8 * 昇腾910多机可组成最大384卡超节点Atlas 800T A2 训练服务器训练8 * 昇腾910Atlas 800I A2 推理服务器推理8 * 昇腾910Atlas 800 推理服务器 (型号3000)实时推理视频分析最大可支持8个Atlas 300I/V ProAtlas 500 Pro 智能边缘服务器 (型号3000)实时推理视频分析,面向边缘应用的产品具有高环境适应性最大支持3个Atlas 300I/V Pro集群产品产品类型做什么用什么芯片Atlas 900 A3 SuperPoD384张NPU像一台计算机一样工作384 * 昇腾910Atlas 900 A2 PoD极致算力密度、极高AI能效、极简交付部署64 * 昇腾910Atlas 900 SuperCluster AI 集群支撑单集群最大12.8w卡规模384* 昇腾910生态组件MindSpore MindIE CANN(Compute Architecture for Neural Networks)华为HDK(Hardware Develop Kit)服务器操作每个芯片里有24个AI core。可以看到每个NPU都配有一块MCU。MCU(Micro Controller Unit)是MCU 是一个独立的、低功耗的微处理器它主要负责以下带外管理Out-of-Band Management任务环境监控Health Monitoring️实时监测芯片的温度、电压和电流。如果温度过高MCU 会触发保护机制如降频或关机防止硬件烧毁。功耗管理Power Management⚡统计整片的功耗数据。控制电源轨的开启和关闭序列。上报与通信 通过特定的总线如 I2C 或串口与服务器的主板管理控制器BMC通信。这就是为什么即使 NPU 还没加载驱动你有时也能通过主板查看到 NPU 的基本健康状态。固件管理 负责 NPU 启动时的引导安全校验管理加载芯片内部的微码。查看MCU 采集的各项指标npu-smi info -t health -i 0 npu-smi info -t power -i 0npu-smi info返回结果的具体解释AICORE (AI Core)是昇腾AI处理器的核心计算单元专门负责执行神经网络中的密集型计算任务。它内部集成了Cube单元负责矩阵运算、Vector单元负责向量运算以及Scalar单元负责标量运算和程序控制。DMA负责Global Memory和Local Memory之间的数据搬运以及不同层级Local Memory之间的数据搬运。AICPU (AI CPU)是AI处理器内部负责非矩阵类复杂计算的通用处理器单元。它通常用于处理AI Core不擅长的控制逻辑、复杂的非并行运算或作为整个系统的任务调度补充数字视觉预处理 DVPP(Digital Video Pre-Processing)这是专门负责“原材料加工”的。在处理视觉任务时它能快速进行视频解码、图片缩放和色域转换确保送入 AI Core 的数据格式是标准的。虽然 AI Core 的矩阵运算能力极强但让它处理图像预处理如 JPEG 解码、缩放效率其实并不高。AI Core 运行速度极快如果它还要分心去搬运原始数据、处理不规则的图像格式会频繁导致流水线停顿。为了让 AI Core 全神贯注于神经网络推理DVPP 内部集成了一系列**硬核Hardwired**加速单元专门负责图像和视频的全流程处理单元名称全称核心职责VDEC ️Video Decoder视频解码支持 H.264/H.265 等格式硬件解码将视频流转为 YUV 格式原始图像。常用于实时视频流分析场景。VENC Video Encoder视频编码将处理好的结果重新编码为视频流格式如H.264或H.265。JPEGD ️JPEG Decoder图片解码将常见的 JPEG/JPG 图片解码为 YUV 或 RGB 格式。JPEGE ✉️JPEG Encoder图片编码将结果编码保存为JPEG图片。VPC ✂️Video Pre-Processing图像处理核心负责缩放Resize、裁剪Crop、色域转换如 YUV 转 RGB。PNGD PNG DecoderPNG 解码专门负责将PNG格式图像数据解码为原始像素数据的硬解码单元。解决的是“从文件到张量”的硬核转换如从 MP4/JPG 到 YUV 图像。这些模块共同构成了昇腾处理器的数字视觉预处理(DVPP)系统通过专用硬件加速极大减轻了AI Core和CPU在处理多媒体数据时的负担。总结来说DVPP 负责重体力活编解码、大跨度缩放AIPP 负责精细调校归一化、色域转换而 AI Core 负责终极推理。这种分工明确的异构架构正是昇腾芯片能高效处理海量视频流的关键。为了把 DVPP 处理好的图像高效的送给 AI Core 进行深度学习推理昇腾 NPU 采用了一套高效的内存管理机制统一寻址空间DVPP、AI Core 和 AI CPU 虽然功能不同但它们可以访问同一片连续的物理内存。内存池管理开发者通过 hi_mpi_dvpp_malloc 申请的内存其物理地址对于所有硬件单元都是透明且可达的。指令链衔接当你调用完 DVPP 的缩放接口后DVPP 会把结果写回内存并发送一个信号通知 Task Scheduler。随后Task Scheduler 直接把这个内存地址指针发给 AI Core 启动计算。至此为止整个数据处理流程形成了一个完美数据漏斗:总结一下“四驾马车”:单元角色比喻AI Core算力核心生产线工人AI CPU逻辑/任务管理车间主任DVPP图像预处理原料加工间MCU芯片监控管理安保电工NPU之间的拓扑连接信息硬切分硬切分Hardware Partitioning 通常指通过 Virtual NPU (vNPU) 技术将一颗物理 NPU 划分为多个相互隔离的逻辑资源实例。这种切分是在硬件资源AI Core、存储带宽等层面进行的物理隔离能够确保不同任务之间的性能互不干扰。910B支持硬切分查询当前型号支持的切分模板。$ npu-smi info -t template-info结果显示这张NPU支持两个硬切分模板vir12_3c_32g (一张910B2 NPU最多可以划分成2个这个规格的实例)vir06_1c_16g (一张910B2 NPU最多可以划分成4个这个规格的实例)查询0号NPU的0号chip的vNPU信息目前0号NPU在未做切分之前的算力和存储情况可以看到910B2 NPU是没有VENC和PNGD的。vNPU算力切分有两种模式0: 容器模式算力切分1: 虚拟机模式算力切分# 设置为容器算力切分模式 npu-smi set -t vnpu-mode -d 0为第8个npu设置vir12_3c_32g的切分$ npu-smi set -t create-vnpu -i 7 -c 0 -f vir12_3c_32g查询一下刚刚设置的NPU切分$ npu-smi info -t info-vnpu -i 7 -c 0删除这个切分华为的910C暂不支持vNPU功能参考文档https://support.huawei.com/enterprise/zh/doc/EDOC1100493501/ca7ef970更多精彩内容关注微信公众号小明的IT世界
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2423513.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!