AI计算前沿：从存内计算到神经形态芯片的硬件革命

news2026/5/12 19:37:04

1. 从CES的喧嚣到AI研究的深水区一次认知的转向每年一月的拉斯维加斯消费电子展CES总是充斥着最炫目的灯光、最酷炫的 gadgets 和最大声的营销口号。作为一名长期跟踪半导体与系统设计的行业观察者我和我的搭档——EDN的主编Brian Santo——在2019年奔赴这场科技盛宴时内心对“人工智能”的期待值是被拉满的。我们预料会看到AI以各种颠覆性的形态嵌入到从汽车到牙刷的每一个角落。然而现实却给了我们一个温和的“提醒”。展会上所谓的AI绝大多数仍是我们早已熟悉的领域基于语音交互的智能音箱、玩具以及服务于自动驾驶的计算机视觉。本质上AI在消费端的初步商业化被高度简化并收敛到了一个点上为产品提供一个更便捷的用户界面UI比如“嘿Siri”或“OK Google”。高通在展车上演示的亚马逊Alexa正是这一趋势的缩影。对于从去年就开始报道第一波语音AI浪潮的我们来说CES上的AI展示显得有些“老生常谈”缺乏真正触动行业神经的突破。这种表面上的“平静”恰恰暴露了一个关键问题真正的、前沿的AI创新并不在聚光灯下的展台而是隐藏在企业的研发部门和顶尖高校的实验室里。CES反映的是技术的应用层是已经成熟到可以产品化的“果实”。而孕育这些果实的“根系”——那些关于计算架构、新型器件、算法本质的探索则在进行着一场静默但深刻的革命。这让我意识到作为一名报道者我的知识存在巨大的盲区。如果只追逐应用的热点我们将永远落后于浪潮。因此我的2019年目标清单上明确写下了要深入理解“广义AI”的产业走向弄懂“分布式AI与机器学习应用”如何与物联网结合追踪“仿生芯片设计”的进展及其与AI的关联并思考AI的可解释性、安全性与公平性这些根本性议题。显然起点不应该是CES。那么起点在哪里幸运的是我接触到了IBM研究院的Rajiv Joshi。他于2018年秋季在IBM T.J. Watson研究中心组织举办了首届“AI计算研讨会”。这个由IBM研究院主导并与IEEE电路与系统学会、IEEE电子器件学会紧密协作的研讨会才是触及AI前沿根系的活动。Joshi分享的研讨会实地报告如同一份清晰的“AI研究前沿地图”不仅让我们看到了这个领域里真正的“关键人物”更揭示了研究者们正在全力攻坚的核心问题。这份报告的价值在于它跳出了消费级应用的喧嚣直指AI未来发展的计算基础与硬件基石。2. 首届AI计算研讨会全景解读一张研究前沿的导航图2018年10月25日在纽约约克城高地的IBM T.J. Watson研究中心THINKLab首届AI计算研讨会汇聚了来自工业界和学术界的梦想家、思想者和创新者。这并非一个大型的商业会议而是一个专注于攻克AI计算挑战、探索AI未来方向的深度学术研讨会。其形式包括两场主题演讲、六场特邀报告、一个学生海报展示环节以及一场小组讨论。超过155名来自IBM、各大公司和高校的参与者免费参加了此次活动这本身就体现了IBM和IEEE在推动AI计算基础研究领域的领导力与开放性姿态。研讨会的委员会和演讲者阵容堪称豪华涵盖了从工业巨头到学术尖端的多重视角。委员会核心包括IBM的Rajiv Joshi、Matt Ziegler、Arvind Kumar以及学术界的代表如西班牙加泰罗尼亚理工大学的Eduard Alarcon教授和马里兰大学的Pamela Abshire教授。这种产研结合的阵容确保了讨论既接产业地气又具学术前瞻性。2.1 主题演讲定义AI的演进阶段与问题范式研讨会的基调由两场重量级主题演讲奠定。IBM的Lisa Amini从MIT-IBM沃森AI实验室的研究项目出发提出了一个极具洞察力的AI发展三分法狭义AI、广义AI和通用AI。她指出当前AI研究社区正开始迈向“广义AI”的旅程而“通用AI”仍是长远目标。这一划分至关重要它帮助我们理解当下大多数应用如语音识别、图像分类都属于解决特定任务的“狭义AI”而“广义AI”则指系统能够跨领域迁移和适应知识更接近人类的灵活认知能力。Amini的演讲为整个研讨会设定了一个从“专才”向“通才”演进的宏观叙事框架。随后ARM的Rob Aitken带来了另一个关键视角。他指出许多新兴的AI问题呈现出目标和规则动态变化的特性这与传统计算问题中固定目标和规则的范式截然不同。例如一个自动驾驶系统遇到的场景是无限且不可预知的其决策规则需要持续适应。Aitken提出了将复杂问题分解为可管理组件的实用方法这可能是应对复杂AI挑战的一条路径。他特别强调物联网需要与AI和机器学习应用结合的分布式系统并且这类应用必须满足实时性、可解释性和安全性的严苛要求。这直接将AI计算从单纯的算力问题提升到了系统架构和工程伦理的层面。2.2 工业界视角从神经形态芯片到深度学习加速在“工业界视角”环节英特尔和IBM的观点代表了两种不同的技术路径。英特尔的Mike Davies重点介绍了其Loihi神经形态芯片。神经形态计算旨在模仿人脑的结构和信息处理方式使用大量的、异步的、低功耗的“神经元”和“突触”进行并行计算。尽管Loihi本身是一颗数字芯片但它代表了超越传统冯·诺依曼架构的探索。这种架构在处理实时传感数据流、模式识别等任务上能效比可能更高为AI计算提供了一个全新的硬件蓝图。与之相对IBM的Jeff Burns则描绘了一条从近期到远期的深度学习加速器发展路线图。他的愿景始于近期的专用数字加速器这符合当前主流如谷歌TPU、英伟达Tensor Core并展望未来通过模拟电路设计和新型器件技术进行增强。Burns的演讲务实而富有远见揭示了工业界在追求更高性能、更低功耗的AI计算时正在进行的从架构到器件层面的全方位创新。注意工业界的这两条路径——颠覆性的神经形态架构与渐进优化的深度学习加速——并非互斥它们很可能在未来融合。对于从业者而言理解神经形态计算的原理有助于打开思路而深耕深度学习加速的架构与优化则是当前更直接的应用技能点。2.3 仿生计算与新兴技术从自然中寻找灵感“仿生计算”环节将视角引向了更基础的生物启发。约翰斯·霍普金斯大学的Andreas Andreou展示了多种仿生芯片设计实例这些芯片作为系统组件正在解决美国国防高级研究计划局等机构感兴趣的复杂问题。这些设计不仅仅是模仿更是从生物高效的信息处理机制中提取原理并将其工程化。加州大学圣地亚哥分校的Todd Hylton则提出了一个更为激进的概念热力学计算。他将计算视为一个物理过程并尝试用热力学的框架来理解和设计计算系统其演化可以通过编程、训练和奖励机制进行“偏置”。这个观点极具启发性它挑战了基于布尔逻辑和硅基开关的传统计算范式为AI计算的终极形态提供了另一种哲学层面的思考。在“新兴技术”环节密歇根大学的Wei Lu和普林斯顿大学的Naveen Verma分别聚焦于两种极具潜力的硬件技术。Lu教授介绍了阻变存储器在器件和芯片层面的设计与制造进展。RRAM不仅能作为高密度存储器其模拟特性如电导值可连续调节使其成为实现“存内计算”的理想载体从而为神经形态计算提供了一个有前途的平台。Verma教授则力证了存内计算的电路与架构方法并展示了多款流片芯片的测量结果为存内计算在能效和速度上的巨大潜力提供了令人信服的证据。存内计算的核心思想是打破“内存墙”让计算直接在数据存储的位置发生这被认为是解决AI计算中数据搬运能耗瓶颈的关键。3. AI计算的核心挑战与未来方向深度解析首届AI计算研讨会清晰地勾勒出当前AI发展面临的几个核心瓶颈以及学术界和工业界试图突破这些瓶颈的主要方向。理解这些远比追逐某个具体的AI应用产品更有价值。3.1 挑战一“内存墙”与能效瓶颈这是最根本、最迫切的挑战。传统的冯·诺依曼架构中处理器和内存是分离的。AI计算尤其是深度学习涉及海量权重的加载和中间结果的频繁存取数据在处理器和内存之间的搬运速度慢、能耗高形成了所谓的“内存墙”。研究表明在典型的深度学习推理中数据搬运的能耗可能远超计算本身。研讨会上重点讨论的存内计算和神经形态计算正是从两个不同角度攻击这一问题。存内计算其思路是“让计算靠近数据”。利用RRAM、相变存储器等新型非易失存储器的模拟特性在存储单元阵列中直接进行乘加运算。这几乎消除了数据搬运能效提升潜力可达几个数量级。Verma教授展示的芯片测量结果正是这条路径可行性的有力证明。然而存内计算面临精度、器件一致性、制造工艺成熟度等工程挑战。神经形态计算其思路是“改变计算范式”。模仿大脑的稀疏、事件驱动、异步处理模式。大脑在处理信息时只有相关的神经元会激活稀疏性且以脉冲信号事件异步通信这种机制天生具有极高的能效。英特尔的Loihi芯片即为此方向的代表。其挑战在于需要全新的编程模型、算法和软件工具链生态建设任重道远。3.2 挑战二从“狭义”走向“广义”AI的算法与架构需求当前AI的成功几乎全部集中在狭义AI领域。要迈向广义AI系统需要具备迁移学习、小样本学习、持续学习、因果推理等能力。这对计算架构提出了新要求动态与自适应如Aitken所指广义AI的问题目标和规则是动态的。硬件架构需要能够灵活地重组计算资源支持不同的计算图神经网络结构并能在线学习和适应。固定的、高度专用的加速器如只擅长卷积计算的芯片可能无法适应。混合精度与可重构计算AI计算的不同阶段训练/推理和不同层卷积层/全连接层对数值精度的需求不同。支持动态混合精度计算以及通过FPGA或CGRA粗粒度可重构架构实现硬件逻辑的实时重构将是应对多样化AI任务的关键。分布式与边缘协同正如研讨会多次强调的物联网场景需要分布式AI。这意味着计算不能全部集中在云端。未来的架构将是“云-边-端”协同的异构系统云端进行大模型训练和复杂推理边缘设备如网关、摄像头进行实时感知和初步处理终端设备如传感器进行极低功耗的本地决策。这要求硬件在性能、能效、成本和体积之间取得精妙的平衡。3.3 挑战三可解释性、安全性与伦理的硬件基础AI的可解释性、安全性和公平性不仅是软件算法问题也与底层硬件密切相关。可解释性复杂的深度学习模型常被视为“黑箱”。未来的AI加速硬件或许需要集成专用的电路模块用于实时追踪和记录关键决策路径的数据流和激活状态为软件层的解释工具提供底层支持。安全性硬件安全是根基。AI系统特别是用于自动驾驶、医疗诊断的关键系统必须抵御硬件层面的攻击如侧信道攻击、故障注入攻击等。AI加速器需要内置硬件安全模块支持安全的密钥管理和可信执行环境。伦理与公平硬件设计本身也可能引入偏见。例如如果用于训练的硬件平台对某些数据类型如低精度浮点数处理不均衡可能会影响最终模型的公平性。硬件设计者需要与算法研究者更紧密地合作从计算源头思考伦理问题。4. 给从业者与学习者的启示如何定位与准备对于身处半导体、硬件、系统架构领域的工程师或是希望进入AI计算领域的研究者和学生这次研讨会的内容提供了清晰的行动指南。4.1 技能树的更新与拓展传统的数字电路设计、体系结构知识仍然是基础但必须进行拓展深入理解机器学习基础不能再满足于调用API。必须理解主流神经网络模型CNN、RNN、Transformer的计算特性、数据流和内存访问模式。这是进行高效硬件设计的前提。掌握特定领域架构学习DSA的设计思想。理解张量处理单元、向量处理单元、网络交换结构等如何针对AI负载进行优化。拥抱新兴器件与电路了解RRAM、MRAM、相变存储器等新型存储器的器件物理和模型。学习模拟/混合信号电路设计基础因为存内计算、神经形态计算大量依赖这些技术。关注系统级挑战将视野从单芯片扩展到系统。学习异构计算、芯片间互连技术、高速接口协议以及分布式系统中的通信与调度问题。4.2 关注关键研究机构与团队研讨会的演讲者名单就是一份顶级研究团队的目录值得长期跟踪工业界实验室IBM研究院特别是Watson中心、英特尔研究院神经形态计算小组、ARM研究部门。这些团队的工作往往预示着未来5-10年的产业技术方向。顶尖学术机构普林斯顿大学Naveen Verma团队存内计算、密歇根大学Wei Lu团队RRAM与神经形态器件、加州大学圣地亚哥分校Todd Hylton团队热力学计算与新型计算范式、约翰斯·霍普金斯大学仿生计算。这些团队在基础研究和前沿探索上最为活跃。标准与社区积极参与IEEE电路与系统学会、电子器件学会的相关活动。这些学术组织是获取最新研究成果、建立学术网络的重要平台。4.3 实践与切入点的选择对于希望动手实践的工程师或学生可以从以下几个相对成熟的切入点开始基于FPGA的AI加速器设计这是连接算法与硬件最实用的桥梁。使用高层次综合工具或RTL设计在FPGA上实现一个卷积神经网络加速器深入理解数据复用、计算并行化、内存带宽优化等核心问题。AI计算模拟器开发使用Python或C开发一个简单的周期精确模拟器用于评估不同硬件架构如不同的内存层次、数据流对AI模型性能和能效的影响。这能极大地加深对架构设计权衡的理解。开源硬件项目参与关注如OpenAI的 Triton、谷歌的XLA等编译器与硬件抽象层项目或是一些开源AI芯片项目如基于RISC-V的AI加速器。参与这些项目能接触到工业级的实践。交叉学科研究如果你是材料或器件背景可以深入研究RRAM、FTJ等新型器件的特性及其在神经形态计算中的应用模型。如果你是计算机科学背景可以探索适用于新型硬件的编程模型、编译优化和运行时调度算法。实操心得在这个快速发展的领域保持学习的最佳方式之一是定期阅读顶级会议论文。重点关注IEEE国际固态电路会议、超大规模集成电路电路技术研讨会、计算机体系结构国际研讨会、机器学习与系统会议等顶会的相关议题。不要试图一次性掌握所有方向选择一个你最有兴趣或与你背景最相关的子领域如存内计算架构、神经形态芯片设计、AI编译器等深入钻研下去建立自己的技术护城河。首届AI计算研讨会如同一扇窗让我们得以窥见AI辉煌应用背后的、那些正在夯实地基的工程师和科学家们的工作。它提醒我们AI的未来不仅由算法和代码书写也同样由晶体管、电路、架构和新型物理器件塑造。对于所有关注技术本质的人来说这里的讨论远比消费电子展上的喧嚣更接近未来。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2607010.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！