AI计算前沿:从存内计算到神经形态芯片的硬件革命

news2026/5/12 19:37:04
1. 从CES的喧嚣到AI研究的深水区一次认知的转向每年一月的拉斯维加斯消费电子展CES总是充斥着最炫目的灯光、最酷炫的 gadgets 和最大声的营销口号。作为一名长期跟踪半导体与系统设计的行业观察者我和我的搭档——EDN的主编Brian Santo——在2019年奔赴这场科技盛宴时内心对“人工智能”的期待值是被拉满的。我们预料会看到AI以各种颠覆性的形态嵌入到从汽车到牙刷的每一个角落。然而现实却给了我们一个温和的“提醒”。展会上所谓的AI绝大多数仍是我们早已熟悉的领域基于语音交互的智能音箱、玩具以及服务于自动驾驶的计算机视觉。本质上AI在消费端的初步商业化被高度简化并收敛到了一个点上为产品提供一个更便捷的用户界面UI比如“嘿Siri”或“OK Google”。高通在展车上演示的亚马逊Alexa正是这一趋势的缩影。对于从去年就开始报道第一波语音AI浪潮的我们来说CES上的AI展示显得有些“老生常谈”缺乏真正触动行业神经的突破。这种表面上的“平静”恰恰暴露了一个关键问题真正的、前沿的AI创新并不在聚光灯下的展台而是隐藏在企业的研发部门和顶尖高校的实验室里。CES反映的是技术的应用层是已经成熟到可以产品化的“果实”。而孕育这些果实的“根系”——那些关于计算架构、新型器件、算法本质的探索则在进行着一场静默但深刻的革命。这让我意识到作为一名报道者我的知识存在巨大的盲区。如果只追逐应用的热点我们将永远落后于浪潮。因此我的2019年目标清单上明确写下了要深入理解“广义AI”的产业走向弄懂“分布式AI与机器学习应用”如何与物联网结合追踪“仿生芯片设计”的进展及其与AI的关联并思考AI的可解释性、安全性与公平性这些根本性议题。显然起点不应该是CES。那么起点在哪里幸运的是我接触到了IBM研究院的Rajiv Joshi。他于2018年秋季在IBM T.J. Watson研究中心组织举办了首届“AI计算研讨会”。这个由IBM研究院主导并与IEEE电路与系统学会、IEEE电子器件学会紧密协作的研讨会才是触及AI前沿根系的活动。Joshi分享的研讨会实地报告如同一份清晰的“AI研究前沿地图”不仅让我们看到了这个领域里真正的“关键人物”更揭示了研究者们正在全力攻坚的核心问题。这份报告的价值在于它跳出了消费级应用的喧嚣直指AI未来发展的计算基础与硬件基石。2. 首届AI计算研讨会全景解读一张研究前沿的导航图2018年10月25日在纽约约克城高地的IBM T.J. Watson研究中心THINKLab首届AI计算研讨会汇聚了来自工业界和学术界的梦想家、思想者和创新者。这并非一个大型的商业会议而是一个专注于攻克AI计算挑战、探索AI未来方向的深度学术研讨会。其形式包括两场主题演讲、六场特邀报告、一个学生海报展示环节以及一场小组讨论。超过155名来自IBM、各大公司和高校的参与者免费参加了此次活动这本身就体现了IBM和IEEE在推动AI计算基础研究领域的领导力与开放性姿态。研讨会的委员会和演讲者阵容堪称豪华涵盖了从工业巨头到学术尖端的多重视角。委员会核心包括IBM的Rajiv Joshi、Matt Ziegler、Arvind Kumar以及学术界的代表如西班牙加泰罗尼亚理工大学的Eduard Alarcon教授和马里兰大学的Pamela Abshire教授。这种产研结合的阵容确保了讨论既接产业地气又具学术前瞻性。2.1 主题演讲定义AI的演进阶段与问题范式研讨会的基调由两场重量级主题演讲奠定。IBM的Lisa Amini从MIT-IBM沃森AI实验室的研究项目出发提出了一个极具洞察力的AI发展三分法狭义AI、广义AI和通用AI。她指出当前AI研究社区正开始迈向“广义AI”的旅程而“通用AI”仍是长远目标。这一划分至关重要它帮助我们理解当下大多数应用如语音识别、图像分类都属于解决特定任务的“狭义AI”而“广义AI”则指系统能够跨领域迁移和适应知识更接近人类的灵活认知能力。Amini的演讲为整个研讨会设定了一个从“专才”向“通才”演进的宏观叙事框架。随后ARM的Rob Aitken带来了另一个关键视角。他指出许多新兴的AI问题呈现出目标和规则动态变化的特性这与传统计算问题中固定目标和规则的范式截然不同。例如一个自动驾驶系统遇到的场景是无限且不可预知的其决策规则需要持续适应。Aitken提出了将复杂问题分解为可管理组件的实用方法这可能是应对复杂AI挑战的一条路径。他特别强调物联网需要与AI和机器学习应用结合的分布式系统并且这类应用必须满足实时性、可解释性和安全性的严苛要求。这直接将AI计算从单纯的算力问题提升到了系统架构和工程伦理的层面。2.2 工业界视角从神经形态芯片到深度学习加速在“工业界视角”环节英特尔和IBM的观点代表了两种不同的技术路径。英特尔的Mike Davies重点介绍了其Loihi神经形态芯片。神经形态计算旨在模仿人脑的结构和信息处理方式使用大量的、异步的、低功耗的“神经元”和“突触”进行并行计算。尽管Loihi本身是一颗数字芯片但它代表了超越传统冯·诺依曼架构的探索。这种架构在处理实时传感数据流、模式识别等任务上能效比可能更高为AI计算提供了一个全新的硬件蓝图。与之相对IBM的Jeff Burns则描绘了一条从近期到远期的深度学习加速器发展路线图。他的愿景始于近期的专用数字加速器这符合当前主流如谷歌TPU、英伟达Tensor Core并展望未来通过模拟电路设计和新型器件技术进行增强。Burns的演讲务实而富有远见揭示了工业界在追求更高性能、更低功耗的AI计算时正在进行的从架构到器件层面的全方位创新。注意工业界的这两条路径——颠覆性的神经形态架构与渐进优化的深度学习加速——并非互斥它们很可能在未来融合。对于从业者而言理解神经形态计算的原理有助于打开思路而深耕深度学习加速的架构与优化则是当前更直接的应用技能点。2.3 仿生计算与新兴技术从自然中寻找灵感“仿生计算”环节将视角引向了更基础的生物启发。约翰斯·霍普金斯大学的Andreas Andreou展示了多种仿生芯片设计实例这些芯片作为系统组件正在解决美国国防高级研究计划局等机构感兴趣的复杂问题。这些设计不仅仅是模仿更是从生物高效的信息处理机制中提取原理并将其工程化。加州大学圣地亚哥分校的Todd Hylton则提出了一个更为激进的概念热力学计算。他将计算视为一个物理过程并尝试用热力学的框架来理解和设计计算系统其演化可以通过编程、训练和奖励机制进行“偏置”。这个观点极具启发性它挑战了基于布尔逻辑和硅基开关的传统计算范式为AI计算的终极形态提供了另一种哲学层面的思考。在“新兴技术”环节密歇根大学的Wei Lu和普林斯顿大学的Naveen Verma分别聚焦于两种极具潜力的硬件技术。Lu教授介绍了阻变存储器在器件和芯片层面的设计与制造进展。RRAM不仅能作为高密度存储器其模拟特性如电导值可连续调节使其成为实现“存内计算”的理想载体从而为神经形态计算提供了一个有前途的平台。Verma教授则力证了存内计算的电路与架构方法并展示了多款流片芯片的测量结果为存内计算在能效和速度上的巨大潜力提供了令人信服的证据。存内计算的核心思想是打破“内存墙”让计算直接在数据存储的位置发生这被认为是解决AI计算中数据搬运能耗瓶颈的关键。3. AI计算的核心挑战与未来方向深度解析首届AI计算研讨会清晰地勾勒出当前AI发展面临的几个核心瓶颈以及学术界和工业界试图突破这些瓶颈的主要方向。理解这些远比追逐某个具体的AI应用产品更有价值。3.1 挑战一“内存墙”与能效瓶颈这是最根本、最迫切的挑战。传统的冯·诺依曼架构中处理器和内存是分离的。AI计算尤其是深度学习涉及海量权重的加载和中间结果的频繁存取数据在处理器和内存之间的搬运速度慢、能耗高形成了所谓的“内存墙”。研究表明在典型的深度学习推理中数据搬运的能耗可能远超计算本身。研讨会上重点讨论的存内计算和神经形态计算正是从两个不同角度攻击这一问题。存内计算其思路是“让计算靠近数据”。利用RRAM、相变存储器等新型非易失存储器的模拟特性在存储单元阵列中直接进行乘加运算。这几乎消除了数据搬运能效提升潜力可达几个数量级。Verma教授展示的芯片测量结果正是这条路径可行性的有力证明。然而存内计算面临精度、器件一致性、制造工艺成熟度等工程挑战。神经形态计算其思路是“改变计算范式”。模仿大脑的稀疏、事件驱动、异步处理模式。大脑在处理信息时只有相关的神经元会激活稀疏性且以脉冲信号事件异步通信这种机制天生具有极高的能效。英特尔的Loihi芯片即为此方向的代表。其挑战在于需要全新的编程模型、算法和软件工具链生态建设任重道远。3.2 挑战二从“狭义”走向“广义”AI的算法与架构需求当前AI的成功几乎全部集中在狭义AI领域。要迈向广义AI系统需要具备迁移学习、小样本学习、持续学习、因果推理等能力。这对计算架构提出了新要求动态与自适应如Aitken所指广义AI的问题目标和规则是动态的。硬件架构需要能够灵活地重组计算资源支持不同的计算图神经网络结构并能在线学习和适应。固定的、高度专用的加速器如只擅长卷积计算的芯片可能无法适应。混合精度与可重构计算AI计算的不同阶段训练/推理和不同层卷积层/全连接层对数值精度的需求不同。支持动态混合精度计算以及通过FPGA或CGRA粗粒度可重构架构实现硬件逻辑的实时重构将是应对多样化AI任务的关键。分布式与边缘协同正如研讨会多次强调的物联网场景需要分布式AI。这意味着计算不能全部集中在云端。未来的架构将是“云-边-端”协同的异构系统云端进行大模型训练和复杂推理边缘设备如网关、摄像头进行实时感知和初步处理终端设备如传感器进行极低功耗的本地决策。这要求硬件在性能、能效、成本和体积之间取得精妙的平衡。3.3 挑战三可解释性、安全性与伦理的硬件基础AI的可解释性、安全性和公平性不仅是软件算法问题也与底层硬件密切相关。可解释性复杂的深度学习模型常被视为“黑箱”。未来的AI加速硬件或许需要集成专用的电路模块用于实时追踪和记录关键决策路径的数据流和激活状态为软件层的解释工具提供底层支持。安全性硬件安全是根基。AI系统特别是用于自动驾驶、医疗诊断的关键系统必须抵御硬件层面的攻击如侧信道攻击、故障注入攻击等。AI加速器需要内置硬件安全模块支持安全的密钥管理和可信执行环境。伦理与公平硬件设计本身也可能引入偏见。例如如果用于训练的硬件平台对某些数据类型如低精度浮点数处理不均衡可能会影响最终模型的公平性。硬件设计者需要与算法研究者更紧密地合作从计算源头思考伦理问题。4. 给从业者与学习者的启示如何定位与准备对于身处半导体、硬件、系统架构领域的工程师或是希望进入AI计算领域的研究者和学生这次研讨会的内容提供了清晰的行动指南。4.1 技能树的更新与拓展传统的数字电路设计、体系结构知识仍然是基础但必须进行拓展深入理解机器学习基础不能再满足于调用API。必须理解主流神经网络模型CNN、RNN、Transformer的计算特性、数据流和内存访问模式。这是进行高效硬件设计的前提。掌握特定领域架构学习DSA的设计思想。理解张量处理单元、向量处理单元、网络交换结构等如何针对AI负载进行优化。拥抱新兴器件与电路了解RRAM、MRAM、相变存储器等新型存储器的器件物理和模型。学习模拟/混合信号电路设计基础因为存内计算、神经形态计算大量依赖这些技术。关注系统级挑战将视野从单芯片扩展到系统。学习异构计算、芯片间互连技术、高速接口协议以及分布式系统中的通信与调度问题。4.2 关注关键研究机构与团队研讨会的演讲者名单就是一份顶级研究团队的目录值得长期跟踪工业界实验室IBM研究院特别是Watson中心、英特尔研究院神经形态计算小组、ARM研究部门。这些团队的工作往往预示着未来5-10年的产业技术方向。顶尖学术机构普林斯顿大学Naveen Verma团队存内计算、密歇根大学Wei Lu团队RRAM与神经形态器件、加州大学圣地亚哥分校Todd Hylton团队热力学计算与新型计算范式、约翰斯·霍普金斯大学仿生计算。这些团队在基础研究和前沿探索上最为活跃。标准与社区积极参与IEEE电路与系统学会、电子器件学会的相关活动。这些学术组织是获取最新研究成果、建立学术网络的重要平台。4.3 实践与切入点的选择对于希望动手实践的工程师或学生可以从以下几个相对成熟的切入点开始基于FPGA的AI加速器设计这是连接算法与硬件最实用的桥梁。使用高层次综合工具或RTL设计在FPGA上实现一个卷积神经网络加速器深入理解数据复用、计算并行化、内存带宽优化等核心问题。AI计算模拟器开发使用Python或C开发一个简单的周期精确模拟器用于评估不同硬件架构如不同的内存层次、数据流对AI模型性能和能效的影响。这能极大地加深对架构设计权衡的理解。开源硬件项目参与关注如OpenAI的 Triton、谷歌的XLA等编译器与硬件抽象层项目或是一些开源AI芯片项目如基于RISC-V的AI加速器。参与这些项目能接触到工业级的实践。交叉学科研究如果你是材料或器件背景可以深入研究RRAM、FTJ等新型器件的特性及其在神经形态计算中的应用模型。如果你是计算机科学背景可以探索适用于新型硬件的编程模型、编译优化和运行时调度算法。实操心得在这个快速发展的领域保持学习的最佳方式之一是定期阅读顶级会议论文。重点关注IEEE国际固态电路会议、超大规模集成电路电路技术研讨会、计算机体系结构国际研讨会、机器学习与系统会议等顶会的相关议题。不要试图一次性掌握所有方向选择一个你最有兴趣或与你背景最相关的子领域如存内计算架构、神经形态芯片设计、AI编译器等深入钻研下去建立自己的技术护城河。首届AI计算研讨会如同一扇窗让我们得以窥见AI辉煌应用背后的、那些正在夯实地基的工程师和科学家们的工作。它提醒我们AI的未来不仅由算法和代码书写也同样由晶体管、电路、架构和新型物理器件塑造。对于所有关注技术本质的人来说这里的讨论远比消费电子展上的喧嚣更接近未来。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2607010.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…