论文解读：Adam定律揭示大模型最爱高频词

news2026/4/10 20:19:04

AI性能的天花板是由数据决定的。这句话每个人都知道。但好数据的定义长期以来只有三个维度准确、丰富、无噪声。没有人认真追问过第四个维度——当数据语义完全相同只是措辞不同时哪个更好这个问题被整个社区沉默地忽视了好几年。直到一支来自FaceMind Corporation和香港中文大学的团队把它做成了一篇有理论、有实验、有完整系统的工作命名为Adams Law——亚当定律。他们的核心发现用一句话说完就是把同一道数学题换成更常见的说法LlaMA3.3-70B的准确率从80.49%涨到了88.75%。不改模型不改题目只改措辞。1. 数据质量的一个盲区你有没有想过Prompt的措辞会影响大模型的推理结果不是指令是否清晰的问题——是在指令语义完全一致的前提下用常见词汇写成的提示和用生僻词汇写成的提示会让模型产生不同的输出。这件事Cao等人2024在NeurIPS上发过一篇关于最差提示性能的研究证明了它真实存在。但那篇工作揭示的是现象没有给出为什么更没有给出怎么系统性地解决它。同样Oh等人2024发现大模型更擅长预测常见词——罕见词对模型来说是更难的预测任务。但这个发现停留在词级别没有延伸到句子级别更没有变成可操作的方法论。这就是这篇研究要填补的缺口。它提出的框架由三个组件构成TFL文本频率定律语义相同时高频表达的文本应该优先选用TFD文本频率蒸馏用目标LLM自身来校准频率估计CTFT课程式文本频率训练按频率从低到高的顺序对数据排序微调三个缩写一个核心命题是AI更喜欢、熟悉的语言。研究团队由FaceMind Corporation的Hongyuan Adam Lu第一作者带领联合香港中文大学信息工程系的Bowen Cao和Wai Lam完成。Wai Lam在自然语言处理领域深耕多年Bowen Cao本人就曾深入研究过提示措辞对LLM性能的影响——这个选题对这支团队来说是一次有机的延伸而不是偶然的跨界。全局框架示意图2. 频率怎么定义——从词到句的估计框架先把最基础的问题回答清楚句子频率是什么怎么算直觉上你能感受到The cat sat on the mat和The feline reposed upon the textile floor covering之间的差距——前者用的全是高频常见词后者像在写学术论文。这篇研究把这种直觉形式化句子频率句子中每个词频率的几何平均。公式写出来是其中 wfreq 是词级频率K 是句子的词数D 是参考语料。这个公式的关键设计是几何平均而不是算术平均——因为几何平均对极低频词更敏感一个超生僻词会把整个句子的频率拉低一大截。就像一根木桶的短板决定了整桶水的高度。更重要的是这个计算不需要目标LLM的训练数据。用开源词频资源这篇研究用的是基于Zipf分布的wordfreq工具背后有ParaCrawl等大规模语料支撑就能完成估计。这解决了一个实践中的巨大障碍——GPT-4o-mini、DeepSeek-V3的训练数据是闭源的你根本不知道它们见过什么。但词级频率的估计不依赖这些一样可以用。当然这只是估计不是精确测量。公开词频资源和目标模型的真实训练分布之间存在偏差。于是有了第二个组件——TFD。3. 文本频率蒸馏让模型告诉你它更熟悉什么TFDTextual Frequency Distillation文本频率蒸馏的思路非常直接既然我们不知道目标LLM的训练数据那就让目标LLM用自己的语言风格生成数据把生成的文本作为新的参考语料来校准频率估计。这就像你想搞清楚一个人平时爱说什么话——与其翻遍他的所有聊天记录不如直接让他自由发言录一段音分析他开口说的词就行了。具体操作给模型一段数据集中的文本让它做故事补全story completion——生成一段延续。这些模型自发产生的续写天然反映了模型更习惯使用的词汇分布。把补全生成的文本组成新语料D重新计算频率最终频率是原始估计和蒸馏估计的加权组合这里的ζ是一个强化系数——当某个词在原始估计里频率接近零时说明它几乎没出现过这时候就把蒸馏估计的权重额外放大弥补原始估计的失灵区域。TFD的效果随数据量单调递增。图1图1展示了这一规律在5种低资源语言上用20%的数据做TFD时提升最弱用100%时提升最强。没有出现边际递减的迹象——在这篇研究测试的范围内数据越多TFD就越准。消融实验给出了更直接的数字。在DeepSeek-V3上使用TFD vs 不使用TFDBLEU胜率96.7% vs 3.3%chrF胜率100.0% vs 0.0%COMET胜率100.0% vs 0.0%TFD不是可选项是框架效果的关键来源。4. 课程式文本频率训练排序也是一门学问解决了选哪个接下来的问题是微调时数据按什么顺序喂给模型CTFTCurriculum Textual Frequency Training课程式文本频率训练给出的答案反直觉——从低频到高频。等等不应该是从简单到难吗这里有一个微妙的区别。传统课程学习Easy-to-Hard里的简单指的是任务复杂度——比如句子句法结构的复杂程度。CTFT里的低频指的是词汇使用的罕见程度。低频词汇更多样、更不确定——对模型来说它们确实是难的高频词汇是模型最熟悉的领域在这里表现最稳定。先让模型见识多样性再强化熟悉地带。这个思路在机器翻译的微调实验上给出了惊人的结果。图2展示了在四个低资源语言上的翻译实验kea_Latn卡布维尔迪语、kik_Latn基库尤语、pag_Latn邦板牙语、lvs_Latn拉脱维亚语图2方案pag_Latn BLEU原始模型1.23普通微调原始数据4.51高频微调无CTFT3.78高频微调有CTFT4.91高频数据配合CTFT从3.78到4.91——提升**29.96%**。对比之下反向排序高频→低频的基线比CTFT差但也比随机顺序稍好。这说明排序方向是有意义的——不是随意选的而是有规律可循的。8项实验指标4个语言 × 2个评测中CTFT拿下全部8项最优。这不是运气这是一致的规律。5. TFPD一个从零开始构建的配对数据集做这些实验首先面临一个问题根本没有现成的数据集——每道题同时有高频版本和低频版本且语义严格一致的那种。研究团队从三个主流数据集出发GSM8K数学推理1319个测试样本FLORES-200机器翻译1012个dev-test样本CommonsenseQA常识推理用GPT-4o-mini给每个样本生成20个改写版本——10个更常见的表达10个更生僻的表达。从中选出最高频和最低频各一个送给三位有英语语言学背景的专业标注员做人工审核只保留三人都认定语义相同的样本对。最终得到738对数学推理样本、526对翻译样本、575对常识推理样本、114对工具调用样本统称TFPDTextual Frequency Paired Dataset。图3图3的统计数据显示高频和低频版本的平均句子长度差异很小数学推理25.86词 vs 25.28词翻译21.70词 vs 24.78词——排除了句子长度这个混淆变量。这个数据集本身就是这篇研究对社区的贡献之一。6. 实验结果跨任务、跨模型、跨语言的全面验证一句话概括在所有任务、所有模型、所有语言上高频文本输入都更好。数学推理图4图4是最直观的一张图。三个主流模型高频vs低频分区的准确率对比DeepSeek-V363.55% → **71.54%**7.99ppGPT-4o-mini60.70% → **68.70%**8.00ppLlaMA3.3-70B-Instruct80.49% → **88.75%**8.26pp还有一个细节更值得注意研究者计算了两个版本都答对的交集。发现当低频版本答对时高频版本必然也答对。换句话说高频输入只挽救了原本答错的样本没有损坏任何原本正确的答案。这是净收益不是此消彼长的零和游戏。图5图5验证了规律的鲁棒性从0.5b到72b规模的全系列qwen2.5模型高频分区一致优于低频分区。规律不随模型大小失效。机器翻译100个语言对这是这篇研究规模最大的实验——在100个语言对上用两个翻译模型DeepSeek-V3和GPT-4o-mini、三个评测指标BLEU、chrF、COMET做全面测试。DeepSeek-V3在BLEU分机器翻译的词匹配精度评分上99/100个语言对得到改善改善超过3分的有31个超过5分的有12个。唯一下降的那一个下降幅度不到1分。chrF分基于字符n-gram的评分比BLEU对词形变化更鲁棒的结果更强DeepSeek-V3 100/100语言对全部改善。COMET基于神经网络的评测模型更贴近人工判断支持37种语言DeepSeek-V3全胜GPT-4o-mini 36/37改善。GPT-4o-mini的BLEU结果略弱但方向一致95/100改善5个下降均不超过1分。100个语言里超过一半是低资源语言class 0或class 1。TFL在资源匮乏语言上同样有效——这是这条定律跨越语言壁垒的重要信号。常识推理和工具调用图6图7图6常识推理和图7工具调用同样支持TFL常识推理GPT-4o-mini 67.47% → 69.74%LlaMA3.3-70B 75.30% → 77.04%工具调用工具选择准确率GPT-4o-mini 60.53% → 66.67%DeepSeek-V3 61.40% → 64.04%规律覆盖数学推理、翻译、常识问答、工具调用——四类任务无一例外。7. 这不是简单文本更好的老结论一个合理的质疑TFL的效果是不是本质上等于简单文本效果更好高频词汇通常就是更简单的词这有什么新鲜的表5给出了明确回答不是。研究者计算了三个文本复杂度指标最大依存树深度、平均依存距离、Flesch-Kincaid可读性等级然后测量了它们与翻译最终性能的相关性。结果Pearson相关系数最高才0.27多数情况下低于0.1。而文本频率与最终性能的相关性在部分语言上高达1.0。频率的预测力远超文本复杂度。两者不是同一个维度。表6的控制实验进一步确认了这一点把高频和低频样本按句法树深度差异分组控制复杂度变量之后在绝大多数分组里高频Prompt依然更好。只有一个例外区间[50%-55%]低频稍好——但这个区间只有21个样本而且仅在BLEU和chrF上COMET不支持这一结论。统计噪声的嫌疑大于规律性的反例。频率是独立于复杂度之外的第四个数据维度。8. 数学证明定律背后的理论基础这篇研究没有满足于实验说明一切。附录里作者给出了一个形式化的数学证明把TFL从经验观察提升为有理论根基的定律。证明分两层Token级别定理1先从一个基础事实出发——自然语言里词的出现频率遵循Zipf定律一种幂律分布排名第1的词频率是排名第2的词的2倍是第3的词的3倍……以此类推高频词极少低频词极多。基于这个分布每个token的NLL损失——负对数似然Negative Log-Likelihood也就是模型预测某个词时的不确定性用负的对数概率来衡量——与其频率排名之间存在半对数线性关系。公式写出来, 其中其中s是Zipf指数r是词的频率排名C是常数ε(r)是模型的逼近误差。排名越高r越大频率越低损失越大——这是单调递增的关系。高频词r小的误差项ε(r)也更小因为训练时见过的样例更多梯度信号更充分模型预测得更稳。句子级别定理3、4对句子的平均条件NLL损失做分解可以证明其中误差总量当高频句和低频句的频率比足够大超过两者误差项之和时高频句的损失严格更低——这就是文本频率定律的充分条件。这个证明最有意思的地方在于误差项在句子的K个token平均后会以√K的速度缩小。实际需要的频率差距远小于理论上的充分条件——定律在实践中比理论更容易满足。有了理论支撑TFL就不只是我们发现了一个有趣现象——它是Zipf定律在语言模型训练中的自然推论。9. 项目总结过去我们理解AI训练数据看的是三件事准不准、够不够多、噪声多不多。文本频率定律打开了第四扇门表达多常见。这意味着什么意味着同样的训练预算选高频表达的数据能免费获得额外提升。意味着Prompt工程不只是把指令写清楚还包括把措辞写常见。意味着从数学推理到机器翻译从英语到百余种语言都有一个此前被遗忘的性能空间等待挖掘。未来值得关注的方向有三个第一实时高频改写系统——把用户输入自动转换为高频表达无感嵌入现有应用提升所有下游任务的准确率。第二极低资源语言的深度探索——100个语言的实验已经验证了TFL的跨语言稳定性但对于class 0类语言几乎没有数字化资源频率估计的准确性本身就是挑战。第三TFL与对齐方法的结合——RLHF、DPO等对齐训练阶段高频数据选择能否同样发挥作用这是一个尚未触碰的开放问题。如果说过去我们对AI训练数据的理解是好数据就是对的数据那么这篇研究展示的是好数据还要是熟悉的数据——第一块揭开数据频率维度的基石。论文标题 Adams Law: Textual Frequency Law on Large Language Models论文地址 https://arxiv.org/pdf/2604.02176作者简介本文由FaceMind Corporation与香港中文大学The Chinese University of Hong Kong联合完成。第一作者为FaceMind Corporation的Hongyuan Adam Lu与Z.L.同列等贡献Equal Contribution共同作者还包括FaceMind Corporation的Victor Wei、Zefan Zhang、Zhao Hong、Qiqi Xiang以及来自香港中文大学的Bowen Cao和Wai Lam。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2503906.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！