论文阅读:ICLR 2026 A Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Res
总目录 大模型安全研究论文整理 2026年版https://blog.csdn.net/WhiffeYF/article/details/159047894https://openreview.net/forum?id887vde4ZAWhttps://openreview.net/pdf?id887vde4ZAWA Guardrail for Safety Preservation: When Safety-Sensitive Subspace Meets Harmful-Resistant Null-SpaceICLR 2026 | 安全微调新范式 论文背景与基本信息《A GUARDRAIL FOR SAFETY PRESERVATION: WHEN SAFETY-SENSITIVE SUBSPACE MEETS HARMFUL-RESISTANT NULL-SPACE》由吉林大学、KAUST、牛津大学等机构的 Bingjie Zhang、Yibo Yang 等学者完成。该论文发现大语言模型在微调即使是 benign 数据或 LoRA时预训练阶段的安全对齐极易退化导致模型对恶意提示产生有害回复。 例子想象一位训练有素的保安预训练模型。他原本能熟练识别并阻止危险人物恶意提示。现在要让他学习新技能比如整理文件下游任务。传统方法要么直接扔给他新任务结果他忘了老本行要么把他关进小黑屋不让学新东西。该论文的做法是先给保安做一次“能力扫描”找出哪些肌肉群是用来防危险的安全敏感子空间。这部分永久冻结不参与学习。剩下的肌肉群用来学习新技能同时给他戴上一副“有害过滤眼镜”有害抵抗零空间。无论他怎么活动眼镜都能保证当危险人物出现时他的反应和原来一模一样。最终保安既学会了整理文件又没丢掉防暴能力。 实验发现基于文档事实在 Llama-2-7B-Chat 上微调 SST‑2、AGNEWS、GSM8K、Dialog Summary 四个任务GuardSpace 的平均有害分数HS降至 2.70%显著优于 SOTA 方法 AsFT 的 8.10%同时平均任务准确率FA提升至 64.36%AsFT 为 62.78%。跨模型验证Qwen‑2‑7B、Gemma‑2‑9B、Mistral‑7B在 GSM8K 上GuardSpace 平均 HS 仅 7.60%而 LoRA 高达 53.50%平均 FA 达 64.60%为所有方法最高。即使微调数据中混入 20% 有害样本GuardSpace 的 HS 仍能维持在 11.2% 以下而 LoRA 已飙升至 58.4%。 启示该论文通过显式拆分安全相关与安全无关的权重并利用零空间投影约束有害输入的输出不变为 LLM 的“安全-性能”权衡提供了一种可工程化、无额外推理开销的普适解法。它证明安全不是脆弱的枷锁而是可以被结构化保留的固有属性。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2568145.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!