在快速演进的AI浪潮中，芯片设计如何应对挑战

news2026/5/16 9:46:34

专家圆桌讨论芯片架构师在为边缘AI处理器进行设计时需要应对多项复杂因素其中快速迭代的AI模型尤为棘手。《半导体工程》杂志就此议题组织了一场深度对话参与者包括Arm边缘AI产品管理总监Ronan Naughton、Cadence Tensilica DSP产品管理集团总监Amol Borkar、Cadence AI IP产品营销总监Jason Lawley、Expedera首席科学家兼联合创始人Sharad Chole、Silvaco旗下Mixel营销总监Justin Endo、Quadric首席营销官Steve Roddy、Rambus院士及杰出发明家Steven Woo博士、Siemens EDA IC验证与EDA AI产品负责人Sathishkumar Balasubramanian以及Synopsys首席产品经理Gordon Cooper。以下为部分讨论内容摘录。边缘端当前有哪些类型的智能体在运行Woo目前大多数边缘智能体涵盖感知、推理以及机器人场景下的规划与执行。这些任务通常在同一设备上协同运行关键不仅在于推理本身还在于系统观察、决策和响应的速度。这促使设计师重新审视内存层次结构、互连架构与安全边界。智能体的本质是整个系统的协调运作而非仅仅是框图上的一个神经网络模块。Chole我们来厘清智能体AI与生成式AI的区别。最核心的区别在于自主性。生成式AI的运作模式是接收提示词然后生成响应而智能体AI在执行高层任务时拥有更强的自主性——你赋予它高层目标它负责统筹规划、制定方案并推进落实。此外智能体通常具备记忆访问能力可以读取用户指令类似CLAUDE.md文件并能调用工具。它不是被动的——不只是处理你给出的提示词。它是主动的可以查询当前日期、天气或判断你最近是否点击过某张图片还可以调用你授权开放的API或工具接口。我并不是说它能访问你的根文件系统但它能访问的内容相当广泛类似于我们人类在自己的电脑上能做的事情。这在编程场景中尤为有用因为它可以编译代码、运行测试等。这一切都源于工具调用能力。此外智能体是真正在思考的机器——它不只是生成内容而是在规划、思考并端到端地执行任务或对任务进行迭代。工具调用产生反馈后智能体会基于反馈重新审视计划。这正是智能体区别于生成式AI的核心所在——你可以将其理解为多轮交互但轮次的推进是通过工具完成的而非人工介入。也正因如此整体处理过程变得相当复杂。它不再是给你一张图生成另一张图这样边界清晰的任务。如果任务边界明确输入和输出的Token数量是有限的。但智能体并不总是如此——虽然存在最大Token限制但实际消耗并不固定这带来了一系列新挑战可以分配什么类型的任务可以将任务元素缩小规模、限制复杂度或工具调用数量但即便如此任务复杂度本身仍然决定了完成它所需的处理量。Naughton我们观察到在私有智能体领域用户自托管的大语言模型不仅可以访问私人媒体内容还能接入日历等个人数据。例如我可以让私有大语言模型在边缘端运行定时或自动化任务充当我的个人助理。与此同时边缘端编程智能体的兴起也十分明显——我可以在边缘设备上并行部署多个编程任务让智能体自主运行事后向我汇报结果。这是两种典型的个人边缘智能体应用场景。在移动端我们也看到了一批新工具能够快速完成应用导航——我只需给出一条指令它可能会依次打开两三个应用来完成任务。架构师如何在模型必然迭代的前提下启动项目并做出决策Woo性能和功耗效率正日益由内存系统设计和数据搬移决定。架构师需要深刻理解目标应用场景并对哪些功能值得占用硅片面积做出果断取舍因为每一个额外特性都会影响PPA并增加复杂度这些代价最终都会显现出来。芯片设计师应当将数据搬移置于首位因为性能与功耗效率的胜负就在这里决出。此外如何集成合适的RAS方案以实现高可靠性和高可用性确保系统运行可预期且值得信赖也是不可忽视的复杂挑战。Roddy这要求架构师在系统中尽可能地追求通用性和灵活性因为我们无法预知未来嵌入式智能体的形态也无法判断它在计算或通信方面需要多大的马力。想象一下你的下一辆车可能搭载的车辆健康智能体它应该提示你何时保养现在是靠你自己观察——你考虑自己的驾驶习惯如果家人也用这辆车你还要考虑谁在什么时间、什么地点开。但如果这个智能体足够聪明能够知道谁开得最多预测所有系统的维护需求了解季节和天气并且知道周末快到了——它甚至可以判断斯蒂芬一家每周末都去滑雪轮胎快磨光了雪况将会很差也许应该去换新轮胎了。智能体可以掌握大量情境信息。而同一辆车如果停在车库里、只有奶奶每周日去教堂时才开其需求就会截然不同。未来这类智能体会存在吗它能否适应周围环境、主动与车主或驾驶员沟通、并从交互中持续学习要支撑这类应用计算基础设施需要具备怎样的通用性Lawley在我看来这些智能体最终都指向多模态AI。就像Steve说的车辆智能体那个例子——智能体能不能直接拨打电话联系人工和真人对话这就需要用到音频技术做降噪、语音识别再结合语言模型来帮你预约服务最后回来告诉你你的车已经预约好了。我看到整个智能体的世界将从根本上改变我们与计算的交互方式尤其是边缘端的计算。Roddy再延伸一下假设你从湾区开车去南加州参加一个活动途中车辆出了问题智能体需要帮你在当地找一家服务中心。它能否识别你购买了延保合同能否找到你的授权经销商或者根据你平时爱用Yelp、偏好五星好评服务商的习惯为你推荐合适的独立维修店它应该足够聪明知道如何为你指路并节省时间。而这正是现在的车辆做不到的——现在的车顶多在仪表盘上亮一个低油压警示灯仅此而已不会帮你解决问题。Lawley从架构师视角来看有一点是确定的模型的灵活性至关重要。未来将出现各种不同的浮点数表示形式智能体可能依赖多种不同类型的模型因此让计算单元和构建模块足够灵活、能够处理多样化的模型类型对架构师而言极为重要。Cooper我完全同意。你提到了多模态需求。对于我们这些在定义下一代NPU的人来说我们正在加速的是一个与系统中主处理器协同工作的模块这是一个系统级问题。从NPU的视角来看核心挑战在于如何足够灵活地支持正在涌现的各类多模态模型——VLA视觉-语言-动作、VLM视觉-语言模型等等。这是边缘端NPU设计者面临的真实挑战。Chole我想从部署角度补充几点。运行智能体工作负载时任务是长期持续运行的因此它们必须在后台稳定运行这是首要前提。为了保证后台运行尽可能高效需要重点关注以下几点支持MoE混合专家架构——因为边缘端没有批处理MoE模型变得至关重要即使是小模型也是如此支持KV缓存量化技术例如Turbo Content等方案——这些技术能避免反复加载庞大KV缓存所带来的带宽浪费即使采用稀疏注意力机制后智能体仍会产生大量KV缓存运行时部署还需支持前缀缓存等内存管理机制同时具备工具调用能力。简而言之我们正在将数据中心推理服务商所具备的服务器级能力迁移到边缘端力求在最小化资源占用的前提下让边缘智能体发挥出最大潜力。至于模型未来将如何演进——坦率说我希望尽量稳定。如果你问我边缘端运行智能体在哪些方面优于数据中心我目前还没有明确答案。遗憾的是对于联网设备而言除了隐私保护这一理由之外我目前仍难以找到充分理由推荐将智能体部署在边缘端。当前边缘AI或智能体边缘AI中最值得关注的应用是什么Woo最具吸引力的应用出现在时效性要求极高的系统中例如工业自动化、机器人和汽车传感。这些系统借助智能体行为对变化的输入做出实时自适应响应而不仅仅是执行分类任务。从硬件角度来看挑战在于在处理连续数据流的同时保持低延迟——这一组合正在推动内存带宽、功耗效率和系统级集成方面的持续创新。Lawley应用场景无处不在几乎涵盖了所有人能想到的边缘应用而且还不断有人在我们尚未想到的领域开辟出新的使用案例很难点名某一个具体方向。Roddy我们看到大量制造商和系统集成商正在思考大语言模型和小语言模型如何重塑人机交互界面——无论是你与汽车的交互方式还是工厂技师与设备的沟通方式乃至你与厨房微波炉的互动。试想如果微波炉没有实体按键只需语音操控是否能降低成本因为去掉了触控面板和各种容易损坏的零部件微波炉的制造成本是否可以降低工厂设备上的麦克风、扬声器和显示屏是否可以取代塞在侧面板里的那本600页操作手册想想节省下的印刷成本以及手册丢失带来的麻烦。现在买辆新车你不会再收到厚厚一本错误代码手册了——你只需直接问车它就能告诉你发生了什么。产品的物理形态正在因此发生变化成本在降低用户体验在提升而这一切都源于能够在边缘端运行一个300亿参数的模型。它不一定非得是智能体但它确实让人与设备的交互方式发生了根本性转变。Balasubramanian我见到了不少正在开发中的个人健康助手它们不只是感知还能主动采取行动。各类应用层出不穷。Siemens与Meta合作在工厂车间引入了Ray-Ban Meta智能眼镜这是人类与边缘AI深度结合的典型案例。工人佩戴眼镜在厂区行走每走到一台设备旁眼前就会弹出状态看板显示一切正常、出现异常或需要维护等信息。我不清楚这些处理到底是在边缘端完成还是仍连接到中央节点但这类工业应用案例正是我们所看到的趋势——感知信息、推断状态、按需行动。如何基于感知结果采取行动将是下一个重大命题。这是一个令人兴奋的时代。我也试用过很多AI笔记工具一个共同挑战是功耗问题——随着处理任务越来越多功耗效率变得愈发关键。Cooper感知AI已经相当成熟人们正在真正找到自己的实际应用场景并尝试将生成式AI融入其中。在汽车领域车舱内的应用是一个典型例子——理论上你可以指着窗外说那是什么建筑多模态AI能够识别你指的方向看到车窗外的画面知道车辆的地理位置理解你的提示词给出完整的回答。实体AI与机器人技术也正在兴起——汽车、无人机、人形机器人。英伟达对此非常乐观尽管不是所有人都准备好在家里迎接一个叠衣服的人形机器人但这无疑是一个值得持续关注的应用方向。我们以前见过像AI这样如此高速的变革节奏吗Balasubramanian以我超过25年的从业经验来看没有。在过去20年里我从未见过如此剧烈的变化。每周都有新客户涌现都有针对新应用的新设计项目启动我们一直在追赶这波浪潮。Lawley回顾历史英特尔推出x86时与飞兆半导体之间也曾上演过一场激烈竞争那也是一个极具创造力的时代。但今天AI的影响范围远比当年的半导体竞赛广泛得多。所有人都知道它——我的孩子知道我妻子知道我父母也知道。Chole机器人技术和自主化将大幅拓展边界。我们将会看到PetaOPS级别的算力引擎。这场对话是从世界模型开始的这非常有意思因为这些模型必须在自主平台上运行并且在视觉处理和Token吞吐方面都有相当高的算力需求。也许这就是我们一年后讨论的主要话题。WooAI带来的变革速度是现代半导体设计史上前所未有的。AI正在压缩整个技术栈的迭代周期而硬件端所感受到的压力是最直接的。随着新能力不断涌现需求被持续刷新模型快速演进一年前的设计假设可能已不再成立。这迫使我们采取系统性的整体设计方法从一开始就将计算、内存、安全和I/O与软件需求统筹规划。这是我们思考未来芯片设计方式的根本性转变。Naughton这一切呈现出相当的指数级增长态势而且与以往不同的是这不再只是炒概念。我们正在见证真实的生产力提升、生活方式的改善以及AI驱动的创新与发现。尽管这可能稍微偏离了边缘AI的话题但我前面提到的那些进展确实在切实改善人们的生活。当然这些进步也伴随着风险我们必须对此保持清醒认知采取审慎的步骤确保在追求效率提升和生活质量增益的同时充分评估和管控潜在风险。QAQ1智能体AI和生成式AI有什么本质区别A生成式AI是接收提示词、生成响应的模式而智能体AI具有更强的自主性能够规划任务、调用工具如API、代码编译、测试运行等并根据工具返回的反馈持续迭代。交互轮次由工具驱动而非人工介入整体处理过程更复杂Token消耗也不固定。Q2在边缘端部署智能体工作负载有哪些关键技术要求A边缘端智能体工作负载需要长期在后台稳定运行因此对以下技术支持有较高要求支持MoE混合专家架构以应对无批处理的边缘场景支持KV缓存量化技术以节省带宽支持前缀缓存等运行时内存管理机制以及具备工具调用能力。总体来说是将数据中心级推理能力以最小化资源占用迁移到边缘端。Q3芯片架构师在设计边缘AI芯片时面临的最大挑战是什么A最核心的挑战来自两方面一是性能与功耗效率高度依赖内存系统设计和数据搬移架构师必须对硅片面积的使用做出严格取舍二是AI模型迭代速度极快多模态、MoE、新浮点格式等新需求不断涌现要求计算单元具备足够的灵活性和通用性以适应未来不可预知的模型变化。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2600395.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！