英国MediaTek研究院找到了让不同AI互相“听懂“彼此的通用翻译层

news2026/5/2 14:31:32

这项由英国剑桥MediaTek Research团队完成的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.07466v2感兴趣的读者可通过该编号查阅完整原文。你有没有试过让两个说着不同方言的人互相传话假设一个人只说粤语另一个人只说闽南语中间那位传话的人如果不懂这两种方言消息就会失真甚至根本传不过去。这个困境在当今人工智能领域同样真实存在——而且规模更大、影响更深。这项研究解决的正是当今最强大的AI语言模型之间一道几乎无人能打通的隔阂。一、为什么AI之间会互相听不懂要理解这个问题需要先了解现代语言AI是怎么读文字的。普通人阅读文章时是一个字一个字地看。但AI语言模型读文字的方式更接近速读高手它们不是逐字阅读而是将文字切成一块一块的词片来处理这个切割工具就叫做分词器tokenizer。以英文为例单词playing可能被切成play和ing两片unfortunately可能被切成un、fort、unate、ly四片。不同的AI厂商根据自己训练数据的特点设计了各自不同的分词方案于是诞生了各自独特的词汇表。Meta公司开发的Llama模型的词汇表大约有12.8万个词片而Qwen模型的词汇表约有15万个谷歌的Gemma系列则又是另一套体系。这带来了一个实际问题。在AI领域有一种极为有效的技术叫做知识蒸馏knowledge distillation——简单说就是用一个庞大、强悍的老师AI去训练一个轻量、快速的学生AI让学生继承老师的能力。这种技术对于把巨型AI瘦身成能在手机上运行的小模型至关重要。但现有的蒸馏技术有一个根本前提老师和学生必须使用同一套分词方案拥有完全相同的词汇表。换句话说如果老师AI和学生AI说的是不同的方言传统方法就完全失效了。研究者们把这个难题称为跨分词器蒸馏Cross-Tokenizer Distillation简称CTD而在这篇论文发表之前这个问题在学术界基本被视为悬而未决的难题。二、前人都想了哪些办法为何都不太理想在这支MediaTek Research团队提出新方案之前学术界已经有一些研究者尝试绕过这道障碍但每种方法都有其明显的局限。一种思路是强行对齐词汇表——就像手动制作一本粤语-闽南语对照字典试图找出两套词汇表之间的对应关系。法国研究者Boizard等人提出了一种基于最优传输理论的方法通过数学手段让两套不同的输出空间尽量对齐。Wan等人则尝试把多个AI的知识融合在一起。Zhang等人提出了双空间蒸馏同时在词汇层面和隐藏表示层面做对齐。还有Minixhofer等人提出通过近似似然匹配来做通用跨分词器蒸馏。这些方法无一例外都需要设计精巧的启发式策略、引入额外的复杂机制并且在理论上存在信息损失——就像那本对照字典永远不可能做到完全精确两种方言之间总有无法一一对应的表达。另一种更原始的思路是样本蒸馏——让老师AI先生成一批文本再让学生在这批文本上进行普通训练。这相当于不直接传授思维方式而是让学生模仿老师写出来的作业。这种方法计算效率低下而且损失了老师在每个词上的细腻概率判断。这两类方法的共同弱点在于它们都在试图强行架设一座连接两种不同语言体系的桥梁而这座桥本身就是不稳定的。三、字节所有AI都能听懂的底层语言MediaTek Research团队的突破口来自一个看似简单却颇为精妙的发现所有的分词方案不管是Llama的、Qwen的还是Gemma的最终都建立在同一套基础之上——字节byte。字节是计算机处理文字的最基本单位。任何一段文字无论是中文、英文还是阿拉伯文在计算机里最终都会被表示为一串字节序列。所有的分词器本质上都是先把文字转换成字节再在字节的基础上进行切割和归组。换句话说字节是所有AI语言体系共同的地基。这个发现促成了本文提出的方法与其费尽心机建造一座连接两套词汇体系的桥梁不如直接找到它们共同站立的那块地基。研究团队把这个方法命名为字节级蒸馏Byte-Level Distillation简称BLD。四、字节级蒸馏是如何工作的核心思路可以用一个直观的场景来理解。假设你要把一位法语厨师的精湛厨艺传授给一位中文厨师。传统方法是先把法语食谱翻译成中文但翻译过程中难免有偏差有些法语烹饪概念根本没有对应的中文词汇。而字节级蒸馏的思路是绕过语言障碍直接让两位厨师都去观察食材本身——食材是无国界的一块牛肉对法国人和中国人来说没有区别。在AI的世界里字节就是那个无国界的食材。具体操作分为两个清晰的步骤。第一步是为学生AI安装一个字节级感知器。研究团队在预训练好的学生模型上在其原有的词汇输出层旁边并联安装一个轻量级的字节级解码头byte-level decoder head。这个额外的模块由10个并行的线性投影层构成每一层负责预测当前词片位置对应的一个字节是什么。这个解码头的参数量相比整个模型来说非常小但它给学生AI开了一扇全新的窗口——能够用字节这种通用语言来感知和表达信息。字节级词汇表只包含256个可能的字节值加上4个特殊符号序列开始、序列结束、填充、未知字符共260个元素比任何分词词汇表都要简洁得多。第二步是通过字节这个共同通道完成知识传递。对于老师AI研究团队借助Vieira等研究者开发的一套算法将老师在词汇层面的输出概率转换成字节层面的概率——也就是说在给定一段已有文字的情况下老师认为下一个字节是a的概率是多少是b的概率是多少依此类推。这个转换过程不是凭空猜测而是有严格数学依据的通过对所有可能的词片分割方案进行加权求和精确推导出字节层面的概率分布。有了老师在字节层面的判断以及学生通过新安装的字节级解码头做出的判断两者之间就可以进行直接比较用KL散度这个数学工具来衡量差距并通过训练让学生的判断尽量靠近老师的判断。与此同时训练过程还保留了两个辅助目标让学生在原有的词汇层面继续预测下一个词片确保词汇层的解码头也能得到更新以及在字节层面预测下一个字节的正确答案确保字节感知能力的稳健性。三个训练目标协同作用构成了完整的蒸馏损失函数。训练完成后那个临时安装的字节级解码头会被摘除留下的是一个焕然一新、使用新分词方案的学生AI——它的内部知识已经从老师那里汲取完毕外表却是一个标准的、干净的语言模型。五、一个棘手的技术细节如何把词汇概率变成字节概率把老师的输出从词汇层面转换到字节层面听起来简单实际上涉及相当精妙的数学处理理解这一点有助于我们更好地认识这个方法的价值。问题的难点在于一个词片token通常包含多个字节。比如英文词片playing包含7个字节。老师AI在某个时刻输出的是对下一个完整词片的概率分布——playing有30%的概率played有25%的概率等等。但我们需要的是对下一个字节的概率分布下一个字节是p的概率是多少这个转换的理论依据来自字节-词片表示引理Byte-Token Representation Lemma由Phan等研究者系统阐述而Vieira等研究者提供了高效的近似计算算法。核心思想是对于任何一段已有的字节序列下一个字节的概率等于所有覆盖该字节序列的词片序列的概率之和。具体计算时算法通过集束搜索beam search的方式在所有可能的词片分割路径中找出概率最高的若干条以此近似全局答案。研究团队对这套近似算法进行了仔细的参数调优。他们测试了不同的集束宽度K保留多少条候选路径和剪枝阈值ε概率低于多少的路径可以丢弃。评估标准是近似结果与高精度参考结果之间的詹森-香农散度JSD这个指标可以理解为两个概率分布之间的相似程度——数值越接近0说明近似越精确。经过测试研究团队发现K10、ε0.01这个组合是最佳平衡点近似误差只有0.0045远低于会影响下游任务表现的阈值0.005同时内存使用量只有高精度参考配置的十分之一使得更高的并行度成为可能。实际运行时在四块NVIDIA RTX 3090显卡上处理100到150字节长度的序列平均只需约10.4秒。用这套配置处理完整个Tulu-3训练数据集的字节概率大约需要两天时间——这是一次性的离线预计算不影响实际训练速度。六、实验怎么设计的和谁比较为了验证字节级蒸馏的实际效果研究团队严格遵循了Minixhofer等人在同类研究中建立的实验框架设计了三类任务覆盖了实际应用中最常见的场景。第一类是BPE到BPE的分词器迁移——把一个已经训练好的模型从一套词片分词方案迁移到另一套。具体操作是取Meta的Llama 3.2 3B30亿参数指令跟随模型把它的分词器换成阿里巴巴Qwen 2模型所使用的分词器然后用不同的蒸馏方法让这个换了语言体系的模型重新学会运转。对比的基准方法包括仅做监督微调SFT、DSKD双空间知识蒸馏、MinED最小编辑距离对齐法以及ALMSFT近似似然匹配方法。第二类是BPE到字节级的分词器迁移——这是更极端的场景相当于把一个习惯以词片为单位思考的模型改造成一个逐字节处理文字的模型。同样使用Llama 3.2 3B作为起点将其改造为字节级语言模型。第三类是真正的跨模型、跨分词器蒸馏——这是最贴近实际应用需求的场景。具体任务是把专门针对数学问题优化的OpenMath2-Llama 3.1 8B80亿参数老师模型的数学能力蒸馏到谷歌的Gemma 2 2B20亿参数学生模型中去。老师和学生不仅分词方案不同架构和训练背景也完全不同。训练数据使用OpenMathInstruct-2数学指令数据集评估在GSM8K小学数学应用题和MATH竞赛级数学题两个标准基准上进行。训练策略上研究团队对所有方法统一使用LoRA低秩适应技术rank64只更新查询和数值投影矩阵其余骨干权重保持冻结。学习率设为2×10??采用余弦衰减加线性热身的调度策略训练5个轮次最大序列长度512词片使用bf16混合精度。这样的统一设置确保了不同方法之间的公平比较。七、实验结果说明了什么在分词器迁移从Llama词汇表切换到Qwen词汇表的结果上字节级蒸馏展现出具体的竞争力。在PiQA物理常识推理上BLD取得了75.68分的最高成绩与原始Llama 3.2 3B的75.46分几乎持平说明通过字节通道传递知识后模型在常识推理上恢复得相当充分。在中文AGIEvalAGI-ZH上BLD同样拿到了最高的35.97分。在MMLU大规模多任务语言理解和BoolQ是否判断上BLD的表现也接近原始模型水准。然而BLD并非在所有方面都最优。ALMSFT在ARC-Challenge科学推理、BoolQ、MMLU、英文AGIEval四个榜单上领先。最值得注意的短板出现在IFEval指令跟随能力评估上BLD只得到30.58分而MinED达到62.83分ALMSFT达到58.51分原始模型的基准是66.31分。这说明字节级蒸馏目前在保留模型按特定格式和规范输出的能力上存在明显不足。在更难的场景——把模型迁移到字节级分词器上——所有方法都遭受了大幅性能下滑MMLU从60.50骤降至约39分区间ARC-Challenge从45.73降至约31-33分区间这反映出将一个以词片为思维单位的模型改造成逐字节运作的模型是一项根本性的挑战。在这个艰难场景下BLD在PiQA上以67.52分略领先于MinED的67.41分但差距微乎其微。各方法的表现差距远比第一类任务小说明在极端困难的情形下所有方法都触到了相似的能力天花板没有哪种方法能真正破局。DSKD在两类迁移任务中都垫底证实了不做任何词汇对齐而直接进行分布匹配的方式在这类问题上行不通。在跨模型、跨分词器的数学蒸馏任务中BLD在GSM8K上以62.55分±1.33取得了所测方法中的最高分超过了ALMSFT的61.56分和纯SFT的59.29分也大幅高于Gemma 2 2B原始基准的51.48分。不过在更难的MATH竞赛题上SFT反而以22.40分领先BLD为20.08分说明BLD的优势并不均匀地覆盖所有数学任务类型。尽管如此即便是最好成绩62.55分与老师模型87.26分之间依然存在超过24分的巨大鸿沟这清晰地提示了跨模型知识迁移仍是一项远未解决的难题。八、一个有趣的意外发现研究团队在验证字节级解码头的有效性时用Llama 3.2 1B模型做了一个纯字节级监督微调实验——也就是说只用字节层面的预测误差来更新模型根本不给词汇层面任何直接监督信号。出乎预料的是词汇层面的训练损失和验证损失也随之下降了而且下降趋势相当平滑稳定。字节层面的训练损失从约0.8降到约0.1验证损失从约0.44逐步降至约0.34词汇层面的训练损失从约3.5降到约1.5验证损失从约2.8降到约2.0。这个发现颇具启示意义在字节粒度上学习语言能够有效地带动词片粒度上的语言理解能力提升。字节层面的信号并不是一种粗糙的替代品而是携带着丰富的、能够渗透到更高层次的语言知识。这也从另一个角度印证了字节是语言的通用地基这一核心直觉。九、诚实面对局限性研究团队并没有回避这项工作的局限性。计算资源的约束使得实验规模被限定在3B分词器迁移任务和8B到2B跨模型蒸馏任务的范围内更大规模模型上的行为尚未探索。参数高效的LoRA微调虽然降低了计算需求但也可能限制了性能上限——全参数优化或许能取得更好的成绩。字节级解码头的设计也还有进步空间。目前使用的是10个并行的简单线性层每个位置最多预测10个字节的信息对于词片长度超过10字节的情况虽然较少见监督信号会被截断。更先进的做法可以是使用一个小型自回归Transformer作为字节级解码头让它能够按顺序生成任意长度的字节序列从而捕捉字节之间的序列依赖关系——这一改进方向在论文中被明确列为未来工作。此外研究团队对结果的评价保持了相当的克制他们明确指出在所有测试的任务和基准上没有任何一种方法包括他们自己的能够持续稳定地优于其他方法。不同的基准、不同的迁移目标、不同的模型对会导致截然不同的方法排名。由此可见跨分词器蒸馏在当前阶段仍然是一个开放性问题距离完满解决还有相当距离。归根结底这项研究做到的事情是用一个出人意料地简单、理论上有据可查的方案证明了字节层面是跨AI知识传递的一个可行共同界面。它没有解决所有问题但它开辟了一条此前几乎无人明确探索过的路径并且用充分的实验证据表明这条路值得继续走下去。对于那些正在思考如何高效组合不同AI系统、或者希望把某个专业领域的大模型知识压缩进小模型的研究者和工程师来说这个方向有着非常实际的意义。当各家AI厂商都在构建自己的分词体系当开源生态中并存着数十种互不兼容的模型家族时找到一个通用的知识传递渠道其重要性不言而喻。字节这个计算机世界里最基础的存在或许正是打通这些孤岛的那把钥匙。有兴趣深入研究这一问题的读者可通过论文编号arXiv:2604.07466查阅完整原文及所有技术细节。QAQ1字节级蒸馏BLD和传统知识蒸馏有什么根本区别A传统知识蒸馏要求老师AI和学生AI使用完全相同的词汇表因为蒸馏是在词汇层面直接比较输出概率。BLD的不同之处在于它把老师的输出概率从词汇层面转换到字节层面同时给学生模型临时安装一个字节级解码头让两者都在字节这个所有AI共有的底层语言上交流知识从而绕过词汇不匹配的问题。蒸馏完成后字节级解码头会被移除学生恢复为标准的词汇级模型。Q2字节级蒸馏在哪些任务上效果不好A根据实验结果字节级蒸馏在指令跟随能力上存在明显短板。在IFEval基准测试中BLD只得到30.58分远低于MinED的62.83分和ALMSFT的58.51分。此外在MATH竞赛级数学题上BLD的20.08分也低于纯监督微调方法的22.40分。这说明当任务要求模型严格遵循特定格式规范或应对复杂推理时字节级蒸馏的优势会减弱甚至消失。Q3跨分词器蒸馏在实际中有什么用A实际应用场景主要有两类。一是把某个专业领域的大模型比如专门训练了数学能力的大模型的知识迁移到一个使用不同词汇体系、参数量更小的模型中得到高效的专业小模型。二是在多个不同厂商的顶级开源模型之间进行集成蒸馏让一个小模型同时学习来自DeepSeek、Qwen、GPT等多个模型的综合知识理论上可以超越任何单一教师模型的能力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2557778.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！