存算一体成为突破算力瓶颈的关键技术?

news2025/6/17 9:11:52

大模型的训练和推理需要高性能的算力支持。以ChatGPT为例,据估算,在训练方面,1746亿参数的GPT-3模型大约需要375-625台8卡DGX A100服务器训练10天左右,对应A100 GPU数量约3000-5000张。

在推理方面,如果以A100 GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量高达5,000万人时,按单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间将会高达243万个小时,对应的GPU需求数量将超过10万个。

大模型的训练和推理依赖通用GPU

算力即计算能力,具体指硬件对数据收集、传输、计算和存储的能力,算力的大小表明了对数字化信息处理能力的强弱,常用计量单位是FLOPS(Floating-point operations per second),表示每秒浮点运算次数。

当前大模型的训练和推理多采用GPGPU。GPGPU是一种由 GPU 去除图形处理和输出,仅保留科学计算、AI训练和推理功能的GPU。GPU芯片最初用于计算机系统图像显示的运算,但因其相比于擅长横向计算的CPU更擅长于并行计算,在涉及到大量的矩阵或向量计算的AI计算中很有优势,GPGPU应运而生。

在这波ChatGPT浪潮中长期押注AI的英伟达可以说受益最多,ChatGPT、包括各种大模型的训练和推理,基本都采用英伟达的GPU。目前国内多个厂商都在布局GPGPU,包括天数智芯、燧原科技、壁仞科技、登临科技等,不过当前还较少能够应用于大模型。

事实上业界认为,随着模型参数越来越大,GPU在提供算力支持上也存在瓶颈。在GPT-2之前的模型时代,GPU内存还能满足AI大模型的需求,近年来,随着Transformer模型的大规模发展和应用,模型大小每两年平均增长240倍,实际上GPT-3等大模型的参数增长已经超过了GPU内存的增长。传统的设计趋势已经不能适应当前的需求,芯片内部、芯片之间或AI加速器之间的通信成为了AI计算的瓶颈。

存算一体技术如何突破算力瓶颈

而存算一体作为一种新型架构形式受到关注,存算一体将存储和计算有机结合,直接在存储单元中处理数据,避免了在存储单元和计算单元之间频繁转移数据,减少了不必要的数据搬移造成的开销,不仅大幅降低了功耗,还可以利用存储单元进行逻辑计算提高算力,显著提升计算效率。

大模型的训练和部署不仅对算力提出了高要求,对能耗的要求也很高,从这个角度来看,存算一体降低功耗,提升计算效率等特性在大模型方面确实更具优势。

因为独具优势,过去几年已经有众多企业进入到存算一体领域,包括知存科技、千芯科技、苹芯科技、后摩智能、亿铸科技等。各企业的技术方向也有所不同,从介质层面来看,有的采用NOR Flash,有的采用SRAM,也有的采用RRAM。

从目前的情况来看,基于NOR Flash的存算一体产品,在算力上难以做大,应用场景主要是对算力要求不高,对功耗要求高的可穿戴设备等领域;基于SRAM的存算一体算力可以更大些,能够用于自动驾驶领域;而真正能够在算力上实现突破,可以称之为大算力AI芯片的,目前只有亿铸科技主推的基于RRAM的存算一体技术。

在大模型对大算力的需求背景下,亿铸科技近期更是提出了存算一体超异构计算。超异构计算能够把更多的异构计算整合重构,从而各类型处理器间充分地、灵活地进行数据交互而形成的计算。

简单来说,就是结合DSA、GPU、CPU、CIM等多个类型引擎的优势,实现性能的飞跃:DSA负责相对确定的大计算量的工作;GPU负责应用层有一些性能敏感的并且有一定弹性的工作;CPU啥都能干,负责兜底;CIM就是存内计算,超异构和普通异构的主要区别就是加入了CIM,由此可以实现同等算力,更低能耗,同等能耗,更高算力。另外,CIM由于器件的优势,能负担比DSA更大的算力。

亿铸科技创始人、董事长兼CEO熊大鹏博士表示,存算一体超异构计算的好处在于:一是在系统层,能够把整体的效率做到最优;二是在软件层,能够实现跨平台架构统一。

基于存算一体超异构概念,亿铸科技提出了自己的技术畅想:若能把新型忆阻器技术(RRAM)、存算一体架构、芯粒技术(Chiplet)、3D封装等技术结合,将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而突破性能瓶颈,抬高AI大算力芯片的发展天花板。

图片

图源:亿铸科技

目前国内已公开的能够实现存算一体AI大算力的芯片公司仅有亿铸科技,其基于RRAM的存算一体AI大算力芯片将在今年回片。

小结

无论是大模型的训练还是部署,对大算力芯片的需求都很大,从目前的情况来看,大模型的训练在很长时间都将要依赖于英伟达的GPU芯片。

而在大模型的推理部署方面,除了GPU,存算一体将是非常合适的选择。未来大模型的部署规模会很大,从前不久英伟达专门推出适合大型语言模型部署的芯片平台也能看出来。据亿铸科技透露,公司规划的产品,在同等功耗下,性能将超越英伟达H100系列的推理芯片。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1503833.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

qsort函数的用法及参数的讲解

第一种用法展示:(整形数组的qsort) 一,qsort函数的定义: qsort 函数的定义:void qsort (void* base, size_t num, size_t size, int (*compar)(const void*,const void*)); 使用其需要包含头文件&#x…

浅述字典攻击

一、前言 字典攻击是一种常见的密码破解方法,它使用预先编制的字典文件作为攻击字典,通过尝试猜测密码的方式来破解密码。下面是一个关于字典攻击的博客,希望能够为您了解字典攻击提供帮助。 二、字典攻击概述 字典攻击是一种密码破解方法&…

STL容器之哈希的补充——其他哈希问题

1.其他哈希问题 ​ 减少了空间的消耗; 1.1位图 ​ 位图判断在不在的时间复杂度是O(1),速度特别快; ​ 使用哈希函数直接定址法,1对1映射; ​ 对于海量的数据判断在不在的问题,使用之前的一些结构已经无法满足&…

Vue快速开发一个主页

前言 这里讲述我们如何快速利用Vue脚手架快速搭建一个主页。 页面布局 el-container / el-header / el-aside / el-main&#xff1a;https://element.eleme.cn/#/zh-CN/component/container <el-container><el-header style"background-color: #4c535a"…

STM32 HAL库RTC复位丢失年月日的解决办法

STM32 HAL库RTC复位丢失年月日的解决办法 0.前言一、实现方式1.CubeMX配置&#xff1a;2.MX_RTC_Init()函数修改2.编写手动解析函数 二、总结 参考文章&#xff1a;stm32f1 cubeMX RTC 掉电后日期丢失的问题 0.前言 最近在使用STM32F103做RTC实验时&#xff0c;发现RTC复位后时…

Web渗透测试流程

什么是渗透测试 渗透测试 (penetration test),是通过模拟恶意黑客的攻击方法&#xff0c;来评估计算机网络系统安全的一种评估方法。这个过程包括对系统的任何弱点、技术缺陷或漏洞的主动分析&#xff0c;这个分析是从一个攻击者可能存在的位置来进行的&#xff0c;并且从这个…

Visual Basic6.0零基础教学(1)—vb的介绍和布局及其小案例

Visual Basic6.0零基础教学(1) 文章目录 Visual Basic6.0零基础教学(1)前言一、vb6.0介绍二、vb的起源一、起源&#xff1a;Basic二、版本三、 Visual Basic6.0 三种版本&#xff1a;四、vb的特点 1.vb的布局介绍创建应用程序的步骤总结 前言 大家好,从今天开始我也会开始更新…

【数据结构六】图文结合详解二叉树(五千字)

二叉树 树是一种非线性的数据结构&#xff0c;它是由n个结点组成的具有层次关系的集合&#xff0c;把他叫做树是因为它的根朝上&#xff0c;叶子朝下&#xff0c;看起来像一颗倒挂的树。二叉树是一种最多只有两个节点的树型结构。这篇文章会用Java代码手撕二叉树的实现&#xf…

水果小程序有哪些功能 怎么制作

​水果店的小程序&#xff0c;通常都非常受欢迎&#xff0c;而且下单率非常不错。它可以帮助水果商家在线销售水果并提供更好的购物体验。在这篇文章中&#xff0c;我们将介绍水果小程序常见的功能以及制作方法。 1. **商品展示与购买**&#xff1a;水果小程序可以展示各种水…

基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的体育赛事目标检测系统(Python+PySide6界面+训练代码)

摘要&#xff1a;开发和研究体育赛事目标检测系统对于增强体育分析和观赏体验至关重要。本篇博客详细讲述了如何运用深度学习技术构建一个体育赛事目标检测系统&#xff0c;并提供了完整的实现代码。系统基于先进的YOLOv8算法&#xff0c;对比了YOLOv7、YOLOv6、YOLOv5的性能&a…

linux网络通信(TCP)

TCP通信 1.socket----->第一个socket 失败-1&#xff0c;错误码 参数类型很多&#xff0c;man查看 2.connect 由于s_addr需要一个32位的数&#xff0c;使用下面函数将点分十进制字符串ip地址以网络字节序转换成32字节数值 同理端口号也有一个转换函数 我们的端口号位两个字…

脚踩顺序表

目录 引言 一&#xff1a;顺序表的结构定义 二&#xff1a;顺序表的操作 1.顺序表的初始化 2.顺序表的销毁 3.顺序表数据的打印 4.顺序表的尾插 5.顺序表的头插 6.顺序表的尾删 7.顺序表的头删 8.顺序表的查找 9.顺序表的删除pos位置的值 10.顺序表的在…

微调模型——续(Machine Learning 研习之十三)

集成方法 微调系统的另一种方法是尝试组合性能最佳的模型。 群体&#xff08;或“整体”&#xff09;通常会比最好的单个模型表现得更好&#xff0c;就像随机森林比它们所依赖的单个决策树表现更好一样&#xff0c;特别是当各个模型犯下不同类型的错误时。 例如&#xff0c;您…

瑞_JVM虚拟机_类的生命周期

文章目录 1 JVM虚拟机概述2 类的生命周期2.1 加载阶段2.1.1 加载过程2.1.2 查看内存中的对象&#xff08;hsdb工具&#xff09; 2.2 连接阶段2.2.1 验证2.2.2 准备&#xff08;final特殊&#xff09;2.2.3 解析 2.3 初始化阶段\<client> ★★★2.4 使用阶段2.5 卸载阶段 …

深入理解神经网络

图片怎么被识别的过程 (每层神经网络是数组,会对进来的数据进行加权求和[(weight*数据 然后累加) bias])(激活函数是为了训练weight和bias偏移值,在每个神经网络)(分类器会统计概率分类) 2. 引用链接 https://mp.weixin.qq.com/s?__bizMzIyNjMxOTY0NA&mid2247500124&…

蓝桥集训之鱼塘钓鱼

蓝桥集训之鱼塘钓鱼 核心思想&#xff1a;多路归并 人不会在鱼塘间往返浪费时间将每个鱼塘的取值列出 想要最多鱼 就是每次在最顶上取最大注意&#xff1a;找最大的顺序和实际钓鱼的顺序不同 先在一个坑钓完再去另一个 #include <iostream>#include <cstring>#…

猫头虎分享已解决Bug || 系统监控故障:MonitoringServiceDown, MetricsCollectionError

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

把握机遇:2024年游戏行业春招提前批全攻略

当前&#xff0c;国内游戏行业正处于高速发展期&#xff0c;各大游戏公司对应届毕业生的人才需求十分旺盛。这一趋势不仅为即将步入职场的学生们提供了广阔的就业前景&#xff0c;也为游戏产业的创新和多元化发展注入了新鲜血液。 在这样的大环境下&#xff0c;2024年春季提前批…

2024038期传足14场胜负前瞻

2024038期售止时间为3月10日&#xff08;周日&#xff09;20点30分&#xff0c;敬请留意&#xff1a; 本期深盘多&#xff0c;1.5以下赔率3场&#xff0c;1.5-2.0赔率2场&#xff0c;其他场次是平半盘、平盘。本期14场整体难度中等偏上。以下为基础盘前瞻&#xff0c;大家可根据…

数字化转型导师坚鹏:大模型的应用实践(金融)

大模型的应用实践 ——开启人类AI新纪元 打造数字化转型新利器 课程背景&#xff1a; 很多企业和员工存在以下问题&#xff1a; 不清楚大模型对我们有什么影响&#xff1f; 不知道大模型的发展现状及作用&#xff1f; 不知道大模型的针对性应用案例&#xff1f; 课程…