论文阅读:ICLR 2026 AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?id1vvbzAqdTe![ICLR 2026 | 零空间安全操控 论文背景与基本信息《AlphaSteer: Learning Refusal Steering with Principled Null-Space Constraint》由来自新加坡国立大学、中国科学技术大学等机构的 Sheng、Shen 等学者完成。该论文聚焦大模型LLM的安全困境如何在不损害通用能力的前提下让模型坚决拒绝恶意诱导如越狱攻击。现有激活操控方法要么“一刀切”导致过度拒答要么规则粗糙、缺乏理论支撑。 方法类比像智能门禁系统该论文提出 AlphaSteer一种基于零空间约束的可学习激活操控方法。 例子想象一栋大楼内部有普通员工良性提示和可疑访客恶意提示。传统方法是对所有人同时拉响警报导致员工也无法正常办公。AlphaSteer 则像一套智能门禁——它首先学习“员工活动区域”的几何结构零空间确保任何操控信号进入该区域时自动归零不打扰正常工作一旦检测到可疑访客系统动态生成指向“拒绝出口”的专属路径重构拒答方向向量将他们引导至安全处置区。这套机制保证了对恶意行为的精准拦截同时让良性活动完全不受影响。 实验发现亮点安全提升显著通用能力几乎无损该论文在 AIM、AutoDAN、GCG 等七种越狱攻击上测试AlphaSteer 的平均防御成功率DSR超过 91%远优于现有激活操控基线。同时在 AlpacaEval、GSM8K 等通用任务上模型性能与原始模型持平未出现过度拒答。操控强度越大安全越稳效用不降随着操控系数 λ 增加恶意提示的激活向量被逐渐推离原区域而良性提示的向量几乎纹丝不动。对比方法 Surgical 则会导致良性激活也发生偏移造成效用损失。对自适应攻击仍有强鲁棒性面对白盒 GCG 攻击AlphaSteer 将攻击损失维持在最高水平防御成功率高达 95.5%远高于原始模型57.5%和固定拒答向量方法79.5%。 学术启示该论文首次将零空间约束引入激活操控为 LLM 的推理时安全增强提供了理论严谨、计算轻量的解决方案有望成为大模型安全部署的通用组件。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2564935.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!