量子+AI,实用还需多久?

news2025/6/19 11:11:28

生成式人工智能正在席卷全球。OpenAI的GPT-4能够通过律师资格考试,Midjourney的图像作品能够赢得艺术大奖,而Sora则能够根据文本创造出令人难以置信的逼真视频。

这些AI模型的成就预示着通用人工智能的曙光——一个曾经只存在于科幻小说中的概念。然而,这些高级模型对计算资源的巨大需求,在成本和资源消耗方面都对科学家们提出了巨大挑战,迫使他们寻求创新的解决方案以应对这些不断增长的问题。

在一篇发表的博文中,Xanadu的科学家David Wakeham从量子机器学习(QML)和量子计算的视角出发,强调了将量子计算与生成式AI整合的潜力,以解决像GPT-4这样的大型语言模型(LLM)面临的巨大计算瓶颈

图片

博文链接:

https://pennylane.ai/blog/2024/04/quantum_transformers/

图片

让我们从涉及量子技术在人工智能领域的最直接论点开始讨论:计算瓶颈。

训练像GPT-4这样的大型语言模型(LLM)成本极高。首先,我们需要整理大量文本,将其分割成D个不同的标记(即单词),然后通过复杂的变换器(Transformer)架构进行处理。这一架构涉及N个参数,是GPT等语言模型的核心,我们需要在训练过程中通过梯度下降法对其进行更新。整个训练过程大约包括nML∼6ND步,其中每个标记的每个参数大约需要进行6次浮点加法或乘法运算。

图片

2月22日,发表在《Quantum》上的新研究证实,Transformer确实可以在简单的量子硬件上工作

论文链接:

https://quantum-journal.org/papers/q-2024-02-22-1265/

据说,GPT-4拥有大约N=1.76×10^12个参数,并且是在包含D=13×10^12个标记的数据集上进行训练的。一个自然的计算单位是petaFLOP-millennium(或PF-millennium),即每秒10^15次浮点运算,连续运行一千年:

图片

值得注意的是,FLOP指的是“浮点运算次数”。如果这些传言属实,那么GPT-4的训练大约需要4个PF-millennium。为了比较,如果在普通笔记本电脑上进行这项任务,将需要50万年。

这对于初创公司来说显然不是个可行的计划。从对数尺度来看,这就是使用GPU与笔记本电脑训练的时间差异:

图片

Sam Altman曾透露,这种规模的计算使公司损失超过1亿美元。尽管GPT-4非常成功,且投资回报巨大,但对大多数企业来说,训练如此庞大的LLM的成本仍然高得令人望而却步。

如今,无论是大公司还是小企业,都在积极寻找这些耗资巨大的计算的可行替代方案。

图片

一个可能的替代方案是量子机器学习。在某些情况下,量子计算机能够以指数级速度减少计算所需的步骤数,因此自然引发了希望它们能帮助拓宽LLM训练的瓶颈的期待。

为了了解如何实现这一目标,我们首先需要将FLOP转换为相应的量子计算单位。一种简单的方法是使用电路层操作数(Circuit Layer Operations per Second,简称CLOP),它实际上就是我们量子电路中的层数。

接下来,我们会将总CLOP数视为经典FLOP数的某个函数。为了计算总时间,我们可以估算每秒能执行的CLOP数。这将取决于我们使用的量子计算机的类型,但为了简化问题,我们可以选择一个能够容易估算每秒CLOP数的量子计算机。

正如Terry Rudolph所解释的,对于基于物质的量子计算机,有一个基于海森堡不确定性原理的简单方法。教科书上提到,能量与时间的不确定性关系如下:

图片

其中,ℎ=6.63×10^(-36)焦耳·秒是普朗克常数。在量子计算的背景下,这可以被严格解释为:如果使用一个能量分布为ΔE的哈密顿量将一个状态旋转到正交状态,至少需要ℎ/(4ΔE) 的时间。

对于光量子计算机,我们不能使用ΔE来设定时间尺度,需要更细致地考虑架构。对于超导量子比特、离子阱等,我们可以使用ΔE≈kBT,其中T是工作温度,kB≈1.38×10^(-23)焦耳/开尔文是玻尔兹曼常数。

CLOP(每秒的CLOP数)的公式为:

图片

对于一个在10毫开尔文下运行的超导量子计算机,我们可以得到大约1吉赫的最佳CLOP数(尽管实际设备可能因噪音等因素未能达到这一水平)。

因此,如果我们能用量子计算机训练一个与GPT-4规模相当的模型,并且实现了类似Grover搜索那样的“通用”二次加速,那么按假设计算,所需的CLOP数为:

图片

这将对应于大约3小时的总训练时间,而且这还未考虑到并行化!相比之下,OpenAI用了三个月时间和25,000个顶尖NVIDIA GPU完成训练。

所以,我们是否都应该转向研究量子变换器呢?这是一个值得深思的问题。

图片

在我们急于改变之前,我们应确保不是在用更快但更贵的方式替换掉既慢又贵的方法!

我们需要认识到,只有在参数规模足够大时,二次方(或其他多项式级别)的加速才显得有用,而“足够大”这一概念与每次基本操作的相对成本密切相关。通过GPT-4,我们可以估算出每次FLOP的成本:

图片

尽管这种比较并不完全公平,但我们可以利用IBM的最大CLOP数(大约1500)和云服务的定价(每秒1.6美元),来推算每个CLOP的成本大约为0.001美元,即十分之一美分。接下来,考虑训练一个需要xFLOP的模型的经典(ML)与量子(QML)成本,在多项式加速的指数为m的情况下:

图片

当以下情况发生时,量子训练成本更低:

图片

图片

对于一个超大规模数据集D约10^13和上述给出的每次基本操作的成本,多项式加速m的量子训练具有成本效益的条件是:

图片

对于二次加速(m=2),我们需要的参数数量达到100万亿(比GPT-4大100倍)才能体现出成本效益。

当然,随着量子计算机的规模增大、性能提升、应用普及,每个CLOP的成本也会相应下降。如果cCLOP能减少一千倍左右,那么训练GPT-4不仅会更快,成本也会更低。随着m的增加,成本效益的临界值也会降低:对于较大的m值,即使是在当前CLOP成本下,使用量子计算机训练任何实际规模的LLM都将变得更经济;我们可能还需要更高的m值来抵消容错机制带来的额外成本。

图片

看起来我们已经找到自由之路:只要在算法上进行微小的调整,量子计算机就能比经典计算机更快、更经济地训练大型语言模型(LLM)

但这里有一个遗憾的问题。我们讨论的参数计算仅涵盖非嵌入参数,并未涵盖将单词、注意力查询等元素嵌入到中间向量空间中的固定成本。

为了简化问题,让我们将焦点放在“词嵌入”(word embedding)上。在现代变换器中,词嵌入空间的维度约为d∼10^4,而在许多提议的量子变换器中,我们至少需要d个量子比特。无论N多小,我们至少需要10^4个经过错误校正的量子比特,才能摘取量子优势的低挂果实——这个数字令人望而却步。

假设Hartmut Neven的定律成立,即错误校正的量子比特数量每18个月翻一番(类似于摩尔定律)。我们现在假设有一个错误校正的量子比特,那么预计需要大约 18个月×log⁡2(104)≈20年18个月×log2(104)≈20年,我们才能使用当前技术为LLM进行词嵌入——20年后,传统方法可能已经无法满足需求。

当然,我们可以选择限制嵌入空间的大小。但这里有两个问题:

a)即使是过时的word2vec方法,使用d=640的维度,也需要大约14年时间才能达到上述估计的量子比特数量;

b)正如最初的变换器论文所显示的那样,即便参数众多,降低嵌入维度也会严重影响性能。非嵌入参数虽然受到了广泛关注,但变换器的成功显然与嵌入的规模密切相关。

量子变换器在计算速度提升之前就会遇到这一瓶颈。在未来5年内,我们有望实现大约30个逻辑量子比特,这看起来是一个实际的压缩目标。

解决嵌入问题似乎很困难,但我们并不是从零开始。振幅编码方法虽然只需要对数数量的量子比特,但其精确度远低于现代应用的需求。然而,这些嵌入的架构要求仍然非常高。这些性能和架构问题构成了瓶颈的一部分!

在另一个方向,量子机器学习(QML)现有的工具,如特征学习和量子核,提供了一种在指数级大的希尔伯特空间中隐式访问和嵌入数据的方法。此外,变换器架构中至关重要的注意层可以被视为核方法(kernel machine)的一部分,这表明我们的量子工具包可能让我们对变换器有更深的理解,这些都超出了我们的预期。

图片

目前关于量子机器学习(QML)与变换器结合的研究正尝试将经典变换器技术移植到量子领域,并寻求可能的量子加速。如果上述数量级的分析准确无误,它们表明任何形式的速度提升(如果可实现的话)都可能大幅缓解GPT-4等大型语言模型(LLM)所面临的计算瓶颈。

然而,提速易实现性难。当前,即使是要训练或运行一个小型的LLM,我们也需要约10,000个量子比特来执行词汇和注意力嵌入,这在可预见的未来内难以实现。而且,到了那个时候,变换器可能会像之前的生成对抗网络(GAN)一样,逐渐被淘汰。

嵌入的瓶颈问题在于如何减少执行嵌入所需的量子比特数量,同时保留变换器架构的优势。量子机器学习的现有先例和工具让这个问题变得可行;然而,这种焦点的转变也基于对量子计算不同的理念——不再是将量子计算机视为一个可任意扩展的通用优势机器,而是看作一个具有我们尚未完全理解的独特超能力的设备。

鉴于此,压缩嵌入(compressed embedding)应成为我们的研究重点,而非仅仅追求性能优势。

尽管量子变换器的研究仍处于初期阶段,但它对AI的未来具有巨大潜力。随着量子计算技术的不断成熟,可用的量子比特数量增加以及错误率的降低,量子AI可能彻底改变多个行业。这将使AI系统不仅更强大、更高效,还更加易于普及,降低了小型实体进入高端AI技术领域的门槛。

总的来说,量子变换器代表了计算科学的一大飞跃,但这一探索之旅才刚刚开始。量子力学与机器学习的结合有望重新定义机器的潜能,为未来的技术革新铺平道路。

参考链接:

[1]https://www.wired.com/story/openai-ceo-sam-altman-the-age-of-giant-ai-models-is-already-over/

[2]https://quantumfrontiers.com/2023/06/21/what-is-the-logical-gate-speed-of-a-photonic-quantum-computer/

[3]https://pennylane.ai/qml/demos/tutorial_grovers_algorithm/

[4]https://www.scientificamerican.com/article/a-new-law-suggests-quantum-supremacy-could-happen-this-year/

[5]https://www.scientificamerican.com/article/quantum-computers-can-run-powerful-ai-that-works-like-the-brain/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1626166.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

快速了解网站访问为什么提示存在安全隐患,该怎么解决

这通常是由于网站使用了不安全的HTTP协议进行通信,或者网站的SSL证书存在问题,或者网站被标记为危险,或者网页中混杂了非HTTPS的内容。 网站访问提示不安全通常是由于以下原因之一引起的,可以按照相应的解决方案进行排查和解决&…

Java集合相关的List、Set、Map基础知识

目录 一、集合介绍 二、List 三、Map HashMap的数据结构 如何理解红黑树 四、set 一、集合介绍 在Java中,集合是一种用于存储对象的数据结构,它提供了一种更加灵活和强大的方式来处理和操作数据。Java集合框架提供了一系列接口和类,用…

CyberData统一元数据服务

CyberData统一元数据服务功能完善,实现了湖仓平台元数据在整个平台的统一管理以及外部数据源元数据的主动发现和多计算引擎间元数据的互通互联。 同时,我们支持跨多元计算场景,以及在元数据基础上的统一数据权限管理和数据湖的自动化优化加速…

2024年好用又便宜的云手机!哪款性价比高?

随着科技的飞速发展,云计算技术也在不断演进,而云手机作为其创新之一,已经开始在我们的生活中崭露头角。它通过将手机的硬件和软件功能移到云端,让用户能够借助强大的云计算资源完成各种任务。2024年,哪款云手机性价比…

springboot整合rabbitMQ系列10 利用插件实现延时消息

插件的安装,本文就不做描述了,插件安装后如下,就说明安装成功了1 添加pom依赖,yml配置就不讲了2 核心类,定义交换机的代码改成如下,其它的定义队列,设置绑定关系,设置死信等&#xf…

WebStorm 2024 for Mac:前端开发的强大助手

WebStorm 2024 for Mac是一款专为前端开发者设计的集成开发环境(IDE),以其强大的功能和出色的性能,为Mac平台上的开发者提供了高效、便捷的Web开发体验。 WebStorm 2024 for Mac v2024.1.1中文激活版下载 这款IDE支持多种编程语言…

深入理解GTK、Qt、AWTK:跨平台GUI框架对比

目录标题 GTK特性:优点:缺点: Qt特性:优点:缺点: AWTK特性:优点:缺点: 适用场景 在当今的软件开发领域,图形用户界面(GUI)的开发是不可…

鸿蒙APP开发页面组件之间的属性关系

我们将对于多页面以及更多有趣的功能展开叙述,这次我们对于 HarmonyOS 的很多有趣常用组件并引出一些其他概念以及解决方案、页面跳转传值、生命周期、启动模式(UiAbility),样式的书写、状态管理以及动画等方面进行探讨 页面之间…

文件权限管理

文件权限管理 1. 权限对象 权限对象含义u属主,所有者g属组o其他人 2. 权限类型 权限类型含义值r读权限4w写权限2x执行权限1 3. 修改文件属主及属组 命令:chown(change own)更改文件或目录属主与属组名 3.1 修改文件属主与属组 只修改属主:chown $…

交互式探索微生物群落与生态功能的关系

微生物群落在生态系统中发挥则重要功能,我们在对微生物群落进行分析时,会将不同分类水平(从门到属)的微生物类群的相对丰度与测定的某一生态功能进行相关性分析。但由于微生物类群数较多,又有不同的分类水平&#xff0…

python利用tg机器人推送发消息从安装到使用(二)

上一篇请参考: python利用tg机器人推送发消息从安装到使用-CSDN博客 本篇主要针对第二种方式推送tg消息,也就是使用telegram库的Bot发送消息,不仅可以发送文本,还可以方便的发送超链接内容和图片。 不过,随着telegram库的升级等各种原因,目前网上很多代码都不能直接使…

汽车组装3D电子说明书更通俗易懂

激光打印机由于造价高、技术更先进,因此在使用和维护上需要更专业的手法,而对于普通客户来说并不具备专业操作激光打印机的技能,为了通俗易懂地让客户理解激光打印机,我们为企业定制了激光打印机3D产品说明书,将为您带…

【如此简单!数据库入门系列】之ER模型快速入门

文章目录 模式设计基本概念实体(Entity)属性(Attributes)实体集和键(key)关系(Relationship) ER图实体和属性关系 泛化与特化总结更多例子 模式设计 大家还记得什么是物理模式、概念…

竞赛课第九周(埃式筛法,矩阵乘法)

1.埃式筛法:求区间[2, n]内所有的素数对 【参考代码】 #include <bits/stdc.h> using namespace std;const int N 1e5; vector<int> prime; bool visit[N];int main() {int n;cin>>n;memset(visit, false, sizeof(visit));for(int i2; i<sqrt(n); i){i…

备考数通HCIE证书4点经验分享!

大家好&#xff0c;我是来自安阳工学院20级网络工程的刁同学&#xff0c;在2023年12月20日成功通过了华为Datacom HCIE认证&#xff0c;并且取得了笔试900多分&#xff0c;实验B的成绩。在此&#xff0c;我想把我的一些考证心得分享给正在备考的小伙伴们。 关于为什么考证 我…

滚珠丝杆有哪些应用场景?

在传动领域中滚珠丝杆是自动化设备和智能制造设备相结合的关键装置&#xff0c;在精密制造工艺、精密装配作业及现代物流系统等多元领域中&#xff0c;发挥着不可或缺的核心作用。其优点在于快速、高效、准确可靠和稳定。它能够在较小的转矩下产生很大的推力&#xff0c;所以被…

VOS3000加装登陆服务器安全防护系统有用吗

VOS3000是一款专业的软交换系统&#xff0c;它主要用于中小规模的VoIP运营业务&#xff0c;包括运营费率设定、套餐管理&#xff0c;账户管理、业终端管理、网关管理、数据查询、卡类管理、号码管理、系统管理等功能1。而关于加装登陆服务器安全防护系统是否有用&#xff0c;这…

用Scrapy编写第一个入门项目(基础四件套:spider,pipeline,setting,items)

简介&#xff1a;scrapy是一个用于爬取网页并提取数据的应用框架&#xff0c;也可用于提取API数据 写在前面&#xff1a;只想看scrapy的童鞋子请跳过5-7直接step8&#xff09; step5&#xff0c;6是xpath和css入门&#xff0c;用于提取数据&#xff1b; step7是文件储存方式&…

软件设计师-重点的创建型设计模式

一、简单工厂&#xff1a; 简单工厂模式属于创建型模式&#xff0c;但不属于23种设计模式之一。 软考中图 二、工厂方法&#xff1a; 意图&#xff1a; 定义一个用于创建对象的接口&#xff0c;让子类决定实例化哪一个类。Factory Method 使一个类的实例化延迟到其子类。 结…

c++在visual studio上的默认配置

右键 新建项 右键源文件 属性