量子+AI，实用还需多久？

生成式人工智能正在席卷全球。OpenAI的GPT-4能够通过律师资格考试，Midjourney的图像作品能够赢得艺术大奖，而Sora则能够根据文本创造出令人难以置信的逼真视频。

这些AI模型的成就预示着通用人工智能的曙光——一个曾经只存在于科幻小说中的概念。然而，这些高级模型对计算资源的巨大需求，在成本和资源消耗方面都对科学家们提出了巨大挑战，迫使他们寻求创新的解决方案以应对这些不断增长的问题。

在一篇发表的博文中，Xanadu的科学家David Wakeham从量子机器学习（QML）和量子计算的视角出发，强调了将量子计算与生成式AI整合的潜力，以解决像GPT-4这样的大型语言模型（LLM）面临的巨大计算瓶颈。

博文链接：

https://pennylane.ai/blog/2024/04/quantum_transformers/

让我们从涉及量子技术在人工智能领域的最直接论点开始讨论：计算瓶颈。

训练像GPT-4这样的大型语言模型（LLM）成本极高。首先，我们需要整理大量文本，将其分割成D个不同的标记（即单词），然后通过复杂的变换器（Transformer）架构进行处理。这一架构涉及N个参数，是GPT等语言模型的核心，我们需要在训练过程中通过梯度下降法对其进行更新。整个训练过程大约包括nML∼6ND步，其中每个标记的每个参数大约需要进行6次浮点加法或乘法运算。

2月22日，发表在《Quantum》上的新研究证实，Transformer确实可以在简单的量子硬件上工作

论文链接：

https://quantum-journal.org/papers/q-2024-02-22-1265/

据说，GPT-4拥有大约N=1.76×10^12个参数，并且是在包含D=13×10^12个标记的数据集上进行训练的。一个自然的计算单位是petaFLOP-millennium（或PF-millennium），即每秒10^15次浮点运算，连续运行一千年：

值得注意的是，FLOP指的是“浮点运算次数”。如果这些传言属实，那么GPT-4的训练大约需要4个PF-millennium。为了比较，如果在普通笔记本电脑上进行这项任务，将需要50万年。

这对于初创公司来说显然不是个可行的计划。从对数尺度来看，这就是使用GPU与笔记本电脑训练的时间差异：

Sam Altman曾透露，这种规模的计算使公司损失超过1亿美元。尽管GPT-4非常成功，且投资回报巨大，但对大多数企业来说，训练如此庞大的LLM的成本仍然高得令人望而却步。

如今，无论是大公司还是小企业，都在积极寻找这些耗资巨大的计算的可行替代方案。

一个可能的替代方案是量子机器学习。在某些情况下，量子计算机能够以指数级速度减少计算所需的步骤数，因此自然引发了希望它们能帮助拓宽LLM训练的瓶颈的期待。

为了了解如何实现这一目标，我们首先需要将FLOP转换为相应的量子计算单位。一种简单的方法是使用电路层操作数（Circuit Layer Operations per Second，简称CLOP），它实际上就是我们量子电路中的层数。

接下来，我们会将总CLOP数视为经典FLOP数的某个函数。为了计算总时间，我们可以估算每秒能执行的CLOP数。这将取决于我们使用的量子计算机的类型，但为了简化问题，我们可以选择一个能够容易估算每秒CLOP数的量子计算机。

正如Terry Rudolph所解释的，对于基于物质的量子计算机，有一个基于海森堡不确定性原理的简单方法。教科书上提到，能量与时间的不确定性关系如下：

其中，ℎ=6.63×10^(-36)焦耳·秒是普朗克常数。在量子计算的背景下，这可以被严格解释为：如果使用一个能量分布为ΔE的哈密顿量将一个状态旋转到正交状态，至少需要ℎ/(4ΔE) 的时间。

对于光量子计算机，我们不能使用ΔE来设定时间尺度，需要更细致地考虑架构。对于超导量子比特、离子阱等，我们可以使用ΔE≈kBT，其中T是工作温度，kB≈1.38×10^(-23)焦耳/开尔文是玻尔兹曼常数。

CLOP（每秒的CLOP数）的公式为：

对于一个在10毫开尔文下运行的超导量子计算机，我们可以得到大约1吉赫的最佳CLOP数（尽管实际设备可能因噪音等因素未能达到这一水平）。

因此，如果我们能用量子计算机训练一个与GPT-4规模相当的模型，并且实现了类似Grover搜索那样的“通用”二次加速，那么按假设计算，所需的CLOP数为：

这将对应于大约3小时的总训练时间，而且这还未考虑到并行化！相比之下，OpenAI用了三个月时间和25,000个顶尖NVIDIA GPU完成训练。

所以，我们是否都应该转向研究量子变换器呢？这是一个值得深思的问题。

在我们急于改变之前，我们应确保不是在用更快但更贵的方式替换掉既慢又贵的方法！

我们需要认识到，只有在参数规模足够大时，二次方（或其他多项式级别）的加速才显得有用，而“足够大”这一概念与每次基本操作的相对成本密切相关。通过GPT-4，我们可以估算出每次FLOP的成本：

尽管这种比较并不完全公平，但我们可以利用IBM的最大CLOP数（大约1500）和云服务的定价（每秒1.6美元），来推算每个CLOP的成本大约为0.001美元，即十分之一美分。接下来，考虑训练一个需要xFLOP的模型的经典（ML）与量子（QML）成本，在多项式加速的指数为m的情况下：

当以下情况发生时，量子训练成本更低：

对于一个超大规模数据集D约10^13和上述给出的每次基本操作的成本，多项式加速m的量子训练具有成本效益的条件是：

对于二次加速（m=2），我们需要的参数数量达到100万亿（比GPT-4大100倍）才能体现出成本效益。

当然，随着量子计算机的规模增大、性能提升、应用普及，每个CLOP的成本也会相应下降。如果cCLOP能减少一千倍左右，那么训练GPT-4不仅会更快，成本也会更低。随着m的增加，成本效益的临界值也会降低：对于较大的m值，即使是在当前CLOP成本下，使用量子计算机训练任何实际规模的LLM都将变得更经济；我们可能还需要更高的m值来抵消容错机制带来的额外成本。

看起来我们已经找到自由之路：只要在算法上进行微小的调整，量子计算机就能比经典计算机更快、更经济地训练大型语言模型（LLM）。

但这里有一个遗憾的问题。我们讨论的参数计算仅涵盖非嵌入参数，并未涵盖将单词、注意力查询等元素嵌入到中间向量空间中的固定成本。

为了简化问题，让我们将焦点放在“词嵌入”（word embedding）上。在现代变换器中，词嵌入空间的维度约为d∼10^4，而在许多提议的量子变换器中，我们至少需要d个量子比特。无论N多小，我们至少需要10^4个经过错误校正的量子比特，才能摘取量子优势的低挂果实——这个数字令人望而却步。

假设Hartmut Neven的定律成立，即错误校正的量子比特数量每18个月翻一番（类似于摩尔定律）。我们现在假设有一个错误校正的量子比特，那么预计需要大约 18个月×log⁡2(104)≈20年18个月×log2(104)≈20年，我们才能使用当前技术为LLM进行词嵌入——20年后，传统方法可能已经无法满足需求。

当然，我们可以选择限制嵌入空间的大小。但这里有两个问题：

a）即使是过时的word2vec方法，使用d=640的维度，也需要大约14年时间才能达到上述估计的量子比特数量；

b）正如最初的变换器论文所显示的那样，即便参数众多，降低嵌入维度也会严重影响性能。非嵌入参数虽然受到了广泛关注，但变换器的成功显然与嵌入的规模密切相关。

量子变换器在计算速度提升之前就会遇到这一瓶颈。在未来5年内，我们有望实现大约30个逻辑量子比特，这看起来是一个实际的压缩目标。

解决嵌入问题似乎很困难，但我们并不是从零开始。振幅编码方法虽然只需要对数数量的量子比特，但其精确度远低于现代应用的需求。然而，这些嵌入的架构要求仍然非常高。这些性能和架构问题构成了瓶颈的一部分！

在另一个方向，量子机器学习（QML）现有的工具，如特征学习和量子核，提供了一种在指数级大的希尔伯特空间中隐式访问和嵌入数据的方法。此外，变换器架构中至关重要的注意层可以被视为核方法（kernel machine）的一部分，这表明我们的量子工具包可能让我们对变换器有更深的理解，这些都超出了我们的预期。