SEKA与AdaSEKA:破解大模型注意力引导难题的新方案
【导语在自然语言处理领域让大模型重点关注提示词某句话存在挑战。爱丁堡大学等团队提出SEKA及其自适应变体AdaSEKA解决了现有方法的延迟和显存瓶颈问题为大语言模型发展带来新思路。】SEKA改写Key向量引导注意力分配在自然语言处理中注意力引导是控制大语言模型聚焦行为的核心技术提示高亮是关键策略。但现有方法需显式存储完整注意力矩阵与高效实现不兼容存在严重延迟和显存瓶颈。SEKA另辟蹊径在注意力计算之前直接编辑Key向量从源头引导注意力分配。SEKA分为离线学习和在线推理两个阶段。离线阶段通过构造对比提示对提取不同条件下的Key嵌入利用奇异值分解学习“相关性子空间”在线推理阶段对需要高亮的token将其Key向量沿着学到的相关性子空间进行投影和放大公式为k’ k g·P·k该操作天然兼容FlashAttention等高效实现无需访问或存储注意力矩阵。选择性引导聚焦敏感KV头SEKA并非对所有KV头施加引导而是只选择那些对“相关性”敏感的头。研究发现Qwen3 - 8B所有层和KV头的相关性敏感度中绿色区域高ℓ₂距离集中在中后层的特定头上与“检索头”分布高度吻合。SEKA利用这一发现仅对这些敏感的KV头施加引导避免干扰其他功能头消融实验证实去掉筛选机制会导致性能大幅下降。AdaSEKA让引导“因题而异”标准SEKA的投影矩阵是固定的面对不同类型任务可能需手动调参。AdaSEKA引入多专家路由机制针对不同任务分别学习多组“专家投影”。推理时利用Query向量与各专家子空间的对齐程度自动计算动态权重实时组合出最适合当前提示的引导算子。这一机制无需额外训练计算代价极低还降低了超参数调优的负担新专家可随时模块化加入。实验结果高效提升准确率研究团队在多个标准基准上使用Qwen3和Gemma3进行全面实验。SEKA和AdaSEKA在绝大多数设定下排名前二在CounterFact上将准确率从30 - 50%提升至接近99%。效率对比方面SEKA每个样本仅增加0.03秒延迟和0.03 GB显存效率优势达到PASTA的数十倍且完全兼容FlashAttention。编辑观点SEKA和AdaSEKA的提出为大模型注意力引导提供了高效方案揭示了Key嵌入中“相关性子空间”的存在为大语言模型发展带来新视角和思路在长上下文应用中有重要实用价值。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2469989.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!