英国MediaTek研究院找到了让不同AI互相“听懂“彼此的通用翻译层

news2026/5/2 14:31:32
这项由英国剑桥MediaTek Research团队完成的研究以预印本形式发布于2026年4月论文编号为arXiv:2604.07466v2感兴趣的读者可通过该编号查阅完整原文。你有没有试过让两个说着不同方言的人互相传话假设一个人只说粤语另一个人只说闽南语中间那位传话的人如果不懂这两种方言消息就会失真甚至根本传不过去。这个困境在当今人工智能领域同样真实存在——而且规模更大、影响更深。这项研究解决的正是当今最强大的AI语言模型之间一道几乎无人能打通的隔阂。一、为什么AI之间会互相听不懂要理解这个问题需要先了解现代语言AI是怎么读文字的。普通人阅读文章时是一个字一个字地看。但AI语言模型读文字的方式更接近速读高手它们不是逐字阅读而是将文字切成一块一块的词片来处理这个切割工具就叫做分词器tokenizer。以英文为例单词playing可能被切成play和ing两片unfortunately可能被切成un、fort、unate、ly四片。不同的AI厂商根据自己训练数据的特点设计了各自不同的分词方案于是诞生了各自独特的词汇表。Meta公司开发的Llama模型的词汇表大约有12.8万个词片而Qwen模型的词汇表约有15万个谷歌的Gemma系列则又是另一套体系。这带来了一个实际问题。在AI领域有一种极为有效的技术叫做知识蒸馏knowledge distillation——简单说就是用一个庞大、强悍的老师AI去训练一个轻量、快速的学生AI让学生继承老师的能力。这种技术对于把巨型AI瘦身成能在手机上运行的小模型至关重要。但现有的蒸馏技术有一个根本前提老师和学生必须使用同一套分词方案拥有完全相同的词汇表。换句话说如果老师AI和学生AI说的是不同的方言传统方法就完全失效了。研究者们把这个难题称为跨分词器蒸馏Cross-Tokenizer Distillation简称CTD而在这篇论文发表之前这个问题在学术界基本被视为悬而未决的难题。二、前人都想了哪些办法为何都不太理想在这支MediaTek Research团队提出新方案之前学术界已经有一些研究者尝试绕过这道障碍但每种方法都有其明显的局限。一种思路是强行对齐词汇表——就像手动制作一本粤语-闽南语对照字典试图找出两套词汇表之间的对应关系。法国研究者Boizard等人提出了一种基于最优传输理论的方法通过数学手段让两套不同的输出空间尽量对齐。Wan等人则尝试把多个AI的知识融合在一起。Zhang等人提出了双空间蒸馏同时在词汇层面和隐藏表示层面做对齐。还有Minixhofer等人提出通过近似似然匹配来做通用跨分词器蒸馏。这些方法无一例外都需要设计精巧的启发式策略、引入额外的复杂机制并且在理论上存在信息损失——就像那本对照字典永远不可能做到完全精确两种方言之间总有无法一一对应的表达。另一种更原始的思路是样本蒸馏——让老师AI先生成一批文本再让学生在这批文本上进行普通训练。这相当于不直接传授思维方式而是让学生模仿老师写出来的作业。这种方法计算效率低下而且损失了老师在每个词上的细腻概率判断。这两类方法的共同弱点在于它们都在试图强行架设一座连接两种不同语言体系的桥梁而这座桥本身就是不稳定的。三、字节所有AI都能听懂的底层语言MediaTek Research团队的突破口来自一个看似简单却颇为精妙的发现所有的分词方案不管是Llama的、Qwen的还是Gemma的最终都建立在同一套基础之上——字节byte。字节是计算机处理文字的最基本单位。任何一段文字无论是中文、英文还是阿拉伯文在计算机里最终都会被表示为一串字节序列。所有的分词器本质上都是先把文字转换成字节再在字节的基础上进行切割和归组。换句话说字节是所有AI语言体系共同的地基。这个发现促成了本文提出的方法与其费尽心机建造一座连接两套词汇体系的桥梁不如直接找到它们共同站立的那块地基。研究团队把这个方法命名为字节级蒸馏Byte-Level Distillation简称BLD。四、字节级蒸馏是如何工作的核心思路可以用一个直观的场景来理解。假设你要把一位法语厨师的精湛厨艺传授给一位中文厨师。传统方法是先把法语食谱翻译成中文但翻译过程中难免有偏差有些法语烹饪概念根本没有对应的中文词汇。而字节级蒸馏的思路是绕过语言障碍直接让两位厨师都去观察食材本身——食材是无国界的一块牛肉对法国人和中国人来说没有区别。在AI的世界里字节就是那个无国界的食材。具体操作分为两个清晰的步骤。第一步是为学生AI安装一个字节级感知器。研究团队在预训练好的学生模型上在其原有的词汇输出层旁边并联安装一个轻量级的字节级解码头byte-level decoder head。这个额外的模块由10个并行的线性投影层构成每一层负责预测当前词片位置对应的一个字节是什么。这个解码头的参数量相比整个模型来说非常小但它给学生AI开了一扇全新的窗口——能够用字节这种通用语言来感知和表达信息。字节级词汇表只包含256个可能的字节值加上4个特殊符号序列开始、序列结束、填充、未知字符共260个元素比任何分词词汇表都要简洁得多。第二步是通过字节这个共同通道完成知识传递。对于老师AI研究团队借助Vieira等研究者开发的一套算法将老师在词汇层面的输出概率转换成字节层面的概率——也就是说在给定一段已有文字的情况下老师认为下一个字节是a的概率是多少是b的概率是多少依此类推。这个转换过程不是凭空猜测而是有严格数学依据的通过对所有可能的词片分割方案进行加权求和精确推导出字节层面的概率分布。有了老师在字节层面的判断以及学生通过新安装的字节级解码头做出的判断两者之间就可以进行直接比较用KL散度这个数学工具来衡量差距并通过训练让学生的判断尽量靠近老师的判断。与此同时训练过程还保留了两个辅助目标让学生在原有的词汇层面继续预测下一个词片确保词汇层的解码头也能得到更新以及在字节层面预测下一个字节的正确答案确保字节感知能力的稳健性。三个训练目标协同作用构成了完整的蒸馏损失函数。训练完成后那个临时安装的字节级解码头会被摘除留下的是一个焕然一新、使用新分词方案的学生AI——它的内部知识已经从老师那里汲取完毕外表却是一个标准的、干净的语言模型。五、一个棘手的技术细节如何把词汇概率变成字节概率把老师的输出从词汇层面转换到字节层面听起来简单实际上涉及相当精妙的数学处理理解这一点有助于我们更好地认识这个方法的价值。问题的难点在于一个词片token通常包含多个字节。比如英文词片playing包含7个字节。老师AI在某个时刻输出的是对下一个完整词片的概率分布——playing有30%的概率played有25%的概率等等。但我们需要的是对下一个字节的概率分布下一个字节是p的概率是多少这个转换的理论依据来自字节-词片表示引理Byte-Token Representation Lemma由Phan等研究者系统阐述而Vieira等研究者提供了高效的近似计算算法。核心思想是对于任何一段已有的字节序列下一个字节的概率等于所有覆盖该字节序列的词片序列的概率之和。具体计算时算法通过集束搜索beam search的方式在所有可能的词片分割路径中找出概率最高的若干条以此近似全局答案。研究团队对这套近似算法进行了仔细的参数调优。他们测试了不同的集束宽度K保留多少条候选路径和剪枝阈值ε概率低于多少的路径可以丢弃。评估标准是近似结果与高精度参考结果之间的詹森-香农散度JSD这个指标可以理解为两个概率分布之间的相似程度——数值越接近0说明近似越精确。经过测试研究团队发现K10、ε0.01这个组合是最佳平衡点近似误差只有0.0045远低于会影响下游任务表现的阈值0.005同时内存使用量只有高精度参考配置的十分之一使得更高的并行度成为可能。实际运行时在四块NVIDIA RTX 3090显卡上处理100到150字节长度的序列平均只需约10.4秒。用这套配置处理完整个Tulu-3训练数据集的字节概率大约需要两天时间——这是一次性的离线预计算不影响实际训练速度。六、实验怎么设计的和谁比较为了验证字节级蒸馏的实际效果研究团队严格遵循了Minixhofer等人在同类研究中建立的实验框架设计了三类任务覆盖了实际应用中最常见的场景。第一类是BPE到BPE的分词器迁移——把一个已经训练好的模型从一套词片分词方案迁移到另一套。具体操作是取Meta的Llama 3.2 3B30亿参数指令跟随模型把它的分词器换成阿里巴巴Qwen 2模型所使用的分词器然后用不同的蒸馏方法让这个换了语言体系的模型重新学会运转。对比的基准方法包括仅做监督微调SFT、DSKD双空间知识蒸馏、MinED最小编辑距离对齐法以及ALMSFT近似似然匹配方法。第二类是BPE到字节级的分词器迁移——这是更极端的场景相当于把一个习惯以词片为单位思考的模型改造成一个逐字节处理文字的模型。同样使用Llama 3.2 3B作为起点将其改造为字节级语言模型。第三类是真正的跨模型、跨分词器蒸馏——这是最贴近实际应用需求的场景。具体任务是把专门针对数学问题优化的OpenMath2-Llama 3.1 8B80亿参数老师模型的数学能力蒸馏到谷歌的Gemma 2 2B20亿参数学生模型中去。老师和学生不仅分词方案不同架构和训练背景也完全不同。训练数据使用OpenMathInstruct-2数学指令数据集评估在GSM8K小学数学应用题和MATH竞赛级数学题两个标准基准上进行。训练策略上研究团队对所有方法统一使用LoRA低秩适应技术rank64只更新查询和数值投影矩阵其余骨干权重保持冻结。学习率设为2×10??采用余弦衰减加线性热身的调度策略训练5个轮次最大序列长度512词片使用bf16混合精度。这样的统一设置确保了不同方法之间的公平比较。七、实验结果说明了什么在分词器迁移从Llama词汇表切换到Qwen词汇表的结果上字节级蒸馏展现出具体的竞争力。在PiQA物理常识推理上BLD取得了75.68分的最高成绩与原始Llama 3.2 3B的75.46分几乎持平说明通过字节通道传递知识后模型在常识推理上恢复得相当充分。在中文AGIEvalAGI-ZH上BLD同样拿到了最高的35.97分。在MMLU大规模多任务语言理解和BoolQ是否判断上BLD的表现也接近原始模型水准。然而BLD并非在所有方面都最优。ALMSFT在ARC-Challenge科学推理、BoolQ、MMLU、英文AGIEval四个榜单上领先。最值得注意的短板出现在IFEval指令跟随能力评估上BLD只得到30.58分而MinED达到62.83分ALMSFT达到58.51分原始模型的基准是66.31分。这说明字节级蒸馏目前在保留模型按特定格式和规范输出的能力上存在明显不足。在更难的场景——把模型迁移到字节级分词器上——所有方法都遭受了大幅性能下滑MMLU从60.50骤降至约39分区间ARC-Challenge从45.73降至约31-33分区间这反映出将一个以词片为思维单位的模型改造成逐字节运作的模型是一项根本性的挑战。在这个艰难场景下BLD在PiQA上以67.52分略领先于MinED的67.41分但差距微乎其微。各方法的表现差距远比第一类任务小说明在极端困难的情形下所有方法都触到了相似的能力天花板没有哪种方法能真正破局。DSKD在两类迁移任务中都垫底证实了不做任何词汇对齐而直接进行分布匹配的方式在这类问题上行不通。在跨模型、跨分词器的数学蒸馏任务中BLD在GSM8K上以62.55分±1.33取得了所测方法中的最高分超过了ALMSFT的61.56分和纯SFT的59.29分也大幅高于Gemma 2 2B原始基准的51.48分。不过在更难的MATH竞赛题上SFT反而以22.40分领先BLD为20.08分说明BLD的优势并不均匀地覆盖所有数学任务类型。尽管如此即便是最好成绩62.55分与老师模型87.26分之间依然存在超过24分的巨大鸿沟这清晰地提示了跨模型知识迁移仍是一项远未解决的难题。八、一个有趣的意外发现研究团队在验证字节级解码头的有效性时用Llama 3.2 1B模型做了一个纯字节级监督微调实验——也就是说只用字节层面的预测误差来更新模型根本不给词汇层面任何直接监督信号。出乎预料的是词汇层面的训练损失和验证损失也随之下降了而且下降趋势相当平滑稳定。字节层面的训练损失从约0.8降到约0.1验证损失从约0.44逐步降至约0.34词汇层面的训练损失从约3.5降到约1.5验证损失从约2.8降到约2.0。这个发现颇具启示意义在字节粒度上学习语言能够有效地带动词片粒度上的语言理解能力提升。字节层面的信号并不是一种粗糙的替代品而是携带着丰富的、能够渗透到更高层次的语言知识。这也从另一个角度印证了字节是语言的通用地基这一核心直觉。九、诚实面对局限性研究团队并没有回避这项工作的局限性。计算资源的约束使得实验规模被限定在3B分词器迁移任务和8B到2B跨模型蒸馏任务的范围内更大规模模型上的行为尚未探索。参数高效的LoRA微调虽然降低了计算需求但也可能限制了性能上限——全参数优化或许能取得更好的成绩。字节级解码头的设计也还有进步空间。目前使用的是10个并行的简单线性层每个位置最多预测10个字节的信息对于词片长度超过10字节的情况虽然较少见监督信号会被截断。更先进的做法可以是使用一个小型自回归Transformer作为字节级解码头让它能够按顺序生成任意长度的字节序列从而捕捉字节之间的序列依赖关系——这一改进方向在论文中被明确列为未来工作。此外研究团队对结果的评价保持了相当的克制他们明确指出在所有测试的任务和基准上没有任何一种方法包括他们自己的能够持续稳定地优于其他方法。不同的基准、不同的迁移目标、不同的模型对会导致截然不同的方法排名。由此可见跨分词器蒸馏在当前阶段仍然是一个开放性问题距离完满解决还有相当距离。归根结底这项研究做到的事情是用一个出人意料地简单、理论上有据可查的方案证明了字节层面是跨AI知识传递的一个可行共同界面。它没有解决所有问题但它开辟了一条此前几乎无人明确探索过的路径并且用充分的实验证据表明这条路值得继续走下去。对于那些正在思考如何高效组合不同AI系统、或者希望把某个专业领域的大模型知识压缩进小模型的研究者和工程师来说这个方向有着非常实际的意义。当各家AI厂商都在构建自己的分词体系当开源生态中并存着数十种互不兼容的模型家族时找到一个通用的知识传递渠道其重要性不言而喻。字节这个计算机世界里最基础的存在或许正是打通这些孤岛的那把钥匙。有兴趣深入研究这一问题的读者可通过论文编号arXiv:2604.07466查阅完整原文及所有技术细节。QAQ1字节级蒸馏BLD和传统知识蒸馏有什么根本区别A传统知识蒸馏要求老师AI和学生AI使用完全相同的词汇表因为蒸馏是在词汇层面直接比较输出概率。BLD的不同之处在于它把老师的输出概率从词汇层面转换到字节层面同时给学生模型临时安装一个字节级解码头让两者都在字节这个所有AI共有的底层语言上交流知识从而绕过词汇不匹配的问题。蒸馏完成后字节级解码头会被移除学生恢复为标准的词汇级模型。Q2字节级蒸馏在哪些任务上效果不好A根据实验结果字节级蒸馏在指令跟随能力上存在明显短板。在IFEval基准测试中BLD只得到30.58分远低于MinED的62.83分和ALMSFT的58.51分。此外在MATH竞赛级数学题上BLD的20.08分也低于纯监督微调方法的22.40分。这说明当任务要求模型严格遵循特定格式规范或应对复杂推理时字节级蒸馏的优势会减弱甚至消失。Q3跨分词器蒸馏在实际中有什么用A实际应用场景主要有两类。一是把某个专业领域的大模型比如专门训练了数学能力的大模型的知识迁移到一个使用不同词汇体系、参数量更小的模型中得到高效的专业小模型。二是在多个不同厂商的顶级开源模型之间进行集成蒸馏让一个小模型同时学习来自DeepSeek、Qwen、GPT等多个模型的综合知识理论上可以超越任何单一教师模型的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2557778.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…