论文解读:Adam定律揭示大模型最爱高频词

news2026/4/10 20:19:04
AI性能的天花板是由数据决定的。这句话每个人都知道。但好数据的定义长期以来只有三个维度准确、丰富、无噪声。没有人认真追问过第四个维度——当数据语义完全相同只是措辞不同时哪个更好这个问题被整个社区沉默地忽视了好几年。直到一支来自FaceMind Corporation和香港中文大学的团队把它做成了一篇有理论、有实验、有完整系统的工作命名为Adams Law——亚当定律。他们的核心发现用一句话说完就是把同一道数学题换成更常见的说法LlaMA3.3-70B的准确率从80.49%涨到了88.75%。不改模型不改题目只改措辞。1. 数据质量的一个盲区你有没有想过Prompt的措辞会影响大模型的推理结果不是指令是否清晰的问题——是在指令语义完全一致的前提下用常见词汇写成的提示和用生僻词汇写成的提示会让模型产生不同的输出。这件事Cao等人2024在NeurIPS上发过一篇关于最差提示性能的研究证明了它真实存在。但那篇工作揭示的是现象没有给出为什么更没有给出怎么系统性地解决它。同样Oh等人2024发现大模型更擅长预测常见词——罕见词对模型来说是更难的预测任务。但这个发现停留在词级别没有延伸到句子级别更没有变成可操作的方法论。这就是这篇研究要填补的缺口。它提出的框架由三个组件构成TFL文本频率定律语义相同时高频表达的文本应该优先选用TFD文本频率蒸馏用目标LLM自身来校准频率估计CTFT课程式文本频率训练按频率从低到高的顺序对数据排序微调三个缩写一个核心命题是AI更喜欢、熟悉的语言。研究团队由FaceMind Corporation的Hongyuan Adam Lu第一作者带领联合香港中文大学信息工程系的Bowen Cao和Wai Lam完成。Wai Lam在自然语言处理领域深耕多年Bowen Cao本人就曾深入研究过提示措辞对LLM性能的影响——这个选题对这支团队来说是一次有机的延伸而不是偶然的跨界。全局框架示意图2. 频率怎么定义——从词到句的估计框架先把最基础的问题回答清楚句子频率是什么怎么算直觉上你能感受到The cat sat on the mat和The feline reposed upon the textile floor covering之间的差距——前者用的全是高频常见词后者像在写学术论文。这篇研究把这种直觉形式化句子频率 句子中每个词频率的几何平均。公式写出来是其中 wfreq 是词级频率K 是句子的词数D 是参考语料。这个公式的关键设计是几何平均而不是算术平均——因为几何平均对极低频词更敏感一个超生僻词会把整个句子的频率拉低一大截。就像一根木桶的短板决定了整桶水的高度。更重要的是这个计算不需要目标LLM的训练数据。用开源词频资源这篇研究用的是基于Zipf分布的wordfreq工具背后有ParaCrawl等大规模语料支撑就能完成估计。这解决了一个实践中的巨大障碍——GPT-4o-mini、DeepSeek-V3的训练数据是闭源的你根本不知道它们见过什么。但词级频率的估计不依赖这些一样可以用。当然这只是估计不是精确测量。公开词频资源和目标模型的真实训练分布之间存在偏差。于是有了第二个组件——TFD。3. 文本频率蒸馏让模型告诉你它更熟悉什么TFDTextual Frequency Distillation文本频率蒸馏的思路非常直接既然我们不知道目标LLM的训练数据那就让目标LLM用自己的语言风格生成数据把生成的文本作为新的参考语料来校准频率估计。这就像你想搞清楚一个人平时爱说什么话——与其翻遍他的所有聊天记录不如直接让他自由发言录一段音分析他开口说的词就行了。具体操作给模型一段数据集中的文本让它做故事补全story completion——生成一段延续。这些模型自发产生的续写天然反映了模型更习惯使用的词汇分布。把补全生成的文本组成新语料D重新计算频率最终频率是原始估计和蒸馏估计的加权组合这里的ζ是一个强化系数——当某个词在原始估计里频率接近零时说明它几乎没出现过这时候就把蒸馏估计的权重额外放大弥补原始估计的失灵区域。TFD的效果随数据量单调递增。图1图1展示了这一规律在5种低资源语言上用20%的数据做TFD时提升最弱用100%时提升最强。没有出现边际递减的迹象——在这篇研究测试的范围内数据越多TFD就越准。消融实验给出了更直接的数字。在DeepSeek-V3上使用TFD vs 不使用TFDBLEU胜率96.7% vs 3.3%chrF胜率100.0% vs 0.0%COMET胜率100.0% vs 0.0%TFD不是可选项是框架效果的关键来源。4. 课程式文本频率训练排序也是一门学问解决了选哪个接下来的问题是微调时数据按什么顺序喂给模型CTFTCurriculum Textual Frequency Training课程式文本频率训练给出的答案反直觉——从低频到高频。等等不应该是从简单到难吗这里有一个微妙的区别。传统课程学习Easy-to-Hard里的简单指的是任务复杂度——比如句子句法结构的复杂程度。CTFT里的低频指的是词汇使用的罕见程度。低频词汇更多样、更不确定——对模型来说它们确实是难的高频词汇是模型最熟悉的领域在这里表现最稳定。先让模型见识多样性再强化熟悉地带。这个思路在机器翻译的微调实验上给出了惊人的结果。图2展示了在四个低资源语言上的翻译实验kea_Latn卡布维尔迪语、kik_Latn基库尤语、pag_Latn邦板牙语、lvs_Latn拉脱维亚语图2方案pag_Latn BLEU原始模型1.23普通微调原始数据4.51高频微调无CTFT3.78高频微调有CTFT4.91高频数据配合CTFT从3.78到4.91——提升**29.96%**。对比之下反向排序高频→低频的基线比CTFT差但也比随机顺序稍好。这说明排序方向是有意义的——不是随意选的而是有规律可循的。8项实验指标4个语言 × 2个评测中CTFT拿下全部8项最优。这不是运气这是一致的规律。5. TFPD一个从零开始构建的配对数据集做这些实验首先面临一个问题根本没有现成的数据集——每道题同时有高频版本和低频版本且语义严格一致的那种。研究团队从三个主流数据集出发GSM8K数学推理1319个测试样本FLORES-200机器翻译1012个dev-test样本CommonsenseQA常识推理用GPT-4o-mini给每个样本生成20个改写版本——10个更常见的表达10个更生僻的表达。从中选出最高频和最低频各一个送给三位有英语语言学背景的专业标注员做人工审核只保留三人都认定语义相同的样本对。最终得到738对数学推理样本、526对翻译样本、575对常识推理样本、114对工具调用样本统称TFPDTextual Frequency Paired Dataset。图3图3的统计数据显示高频和低频版本的平均句子长度差异很小数学推理25.86词 vs 25.28词翻译21.70词 vs 24.78词——排除了句子长度这个混淆变量。这个数据集本身就是这篇研究对社区的贡献之一。6. 实验结果跨任务、跨模型、跨语言的全面验证一句话概括在所有任务、所有模型、所有语言上高频文本输入都更好。数学推理图4图4是最直观的一张图。三个主流模型高频vs低频分区的准确率对比DeepSeek-V363.55% → **71.54%**7.99ppGPT-4o-mini60.70% → **68.70%**8.00ppLlaMA3.3-70B-Instruct80.49% → **88.75%**8.26pp还有一个细节更值得注意研究者计算了两个版本都答对的交集。发现当低频版本答对时高频版本必然也答对。换句话说高频输入只挽救了原本答错的样本没有损坏任何原本正确的答案。这是净收益不是此消彼长的零和游戏。图5图5验证了规律的鲁棒性从0.5b到72b规模的全系列qwen2.5模型高频分区一致优于低频分区。规律不随模型大小失效。机器翻译100个语言对这是这篇研究规模最大的实验——在100个语言对上用两个翻译模型DeepSeek-V3和GPT-4o-mini、三个评测指标BLEU、chrF、COMET做全面测试。DeepSeek-V3在BLEU分机器翻译的词匹配精度评分上99/100个语言对得到改善改善超过3分的有31个超过5分的有12个。唯一下降的那一个下降幅度不到1分。chrF分基于字符n-gram的评分比BLEU对词形变化更鲁棒的结果更强DeepSeek-V3 100/100语言对全部改善。COMET基于神经网络的评测模型更贴近人工判断支持37种语言DeepSeek-V3全胜GPT-4o-mini 36/37改善。GPT-4o-mini的BLEU结果略弱但方向一致95/100改善5个下降均不超过1分。100个语言里超过一半是低资源语言class 0或class 1。TFL在资源匮乏语言上同样有效——这是这条定律跨越语言壁垒的重要信号。常识推理和工具调用图6图7图6常识推理和图7工具调用同样支持TFL常识推理GPT-4o-mini 67.47% → 69.74%LlaMA3.3-70B 75.30% → 77.04%工具调用工具选择准确率GPT-4o-mini 60.53% → 66.67%DeepSeek-V3 61.40% → 64.04%规律覆盖数学推理、翻译、常识问答、工具调用——四类任务无一例外。7. 这不是简单文本更好的老结论一个合理的质疑TFL的效果是不是本质上等于简单文本效果更好高频词汇通常就是更简单的词这有什么新鲜的表5给出了明确回答不是。研究者计算了三个文本复杂度指标最大依存树深度、平均依存距离、Flesch-Kincaid可读性等级然后测量了它们与翻译最终性能的相关性。结果Pearson相关系数最高才0.27多数情况下低于0.1。而文本频率与最终性能的相关性在部分语言上高达1.0。频率的预测力远超文本复杂度。两者不是同一个维度。表6的控制实验进一步确认了这一点把高频和低频样本按句法树深度差异分组控制复杂度变量之后在绝大多数分组里高频Prompt依然更好。只有一个例外区间[50%-55%]低频稍好——但这个区间只有21个样本而且仅在BLEU和chrF上COMET不支持这一结论。统计噪声的嫌疑大于规律性的反例。频率是独立于复杂度之外的第四个数据维度。8. 数学证明定律背后的理论基础这篇研究没有满足于实验说明一切。附录里作者给出了一个形式化的数学证明把TFL从经验观察提升为有理论根基的定律。证明分两层Token级别定理1先从一个基础事实出发——自然语言里词的出现频率遵循Zipf定律一种幂律分布排名第1的词频率是排名第2的词的2倍是第3的词的3倍……以此类推高频词极少低频词极多。基于这个分布每个token的NLL损失——负对数似然Negative Log-Likelihood也就是模型预测某个词时的不确定性用负的对数概率来衡量——与其频率排名之间存在半对数线性关系。公式写出来, 其中其中s是Zipf指数r是词的频率排名C是常数ε(r)是模型的逼近误差。排名越高r越大频率越低损失越大——这是单调递增的关系。高频词r小的误差项ε(r)也更小因为训练时见过的样例更多梯度信号更充分模型预测得更稳。句子级别定理3、4对句子的平均条件NLL损失做分解可以证明其中误差总量当高频句和低频句的频率比足够大超过两者误差项之和时高频句的损失严格更低——这就是文本频率定律的充分条件。这个证明最有意思的地方在于误差项在句子的K个token平均后会以√K的速度缩小。实际需要的频率差距远小于理论上的充分条件——定律在实践中比理论更容易满足。有了理论支撑TFL就不只是我们发现了一个有趣现象——它是Zipf定律在语言模型训练中的自然推论。9. 项目总结过去我们理解AI训练数据看的是三件事准不准、够不够多、噪声多不多。文本频率定律打开了第四扇门表达多常见。这意味着什么意味着同样的训练预算选高频表达的数据能免费获得额外提升。意味着Prompt工程不只是把指令写清楚还包括把措辞写常见。意味着从数学推理到机器翻译从英语到百余种语言都有一个此前被遗忘的性能空间等待挖掘。未来值得关注的方向有三个第一实时高频改写系统——把用户输入自动转换为高频表达无感嵌入现有应用提升所有下游任务的准确率。第二极低资源语言的深度探索——100个语言的实验已经验证了TFL的跨语言稳定性但对于class 0类语言几乎没有数字化资源频率估计的准确性本身就是挑战。第三TFL与对齐方法的结合——RLHF、DPO等对齐训练阶段高频数据选择能否同样发挥作用这是一个尚未触碰的开放问题。如果说过去我们对AI训练数据的理解是好数据就是对的数据那么这篇研究展示的是好数据还要是熟悉的数据——第一块揭开数据频率维度的基石。论文标题 Adams Law: Textual Frequency Law on Large Language Models论文地址 https://arxiv.org/pdf/2604.02176作者简介 本文由FaceMind Corporation与香港中文大学The Chinese University of Hong Kong联合完成。第一作者为FaceMind Corporation的Hongyuan Adam Lu与Z.L.同列等贡献Equal Contribution共同作者还包括FaceMind Corporation的Victor Wei、Zefan Zhang、Zhao Hong、Qiqi Xiang以及来自香港中文大学的Bowen Cao和Wai Lam。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2503906.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…