论文阅读：arxiv 2024 SmoothLLM: Defending LLMs Against Jailbreaking Attacks

news2026/2/18 2:43:38

SmoothLLM: Defending LLMs Against Jailbreaking Attacks

总目录大模型安全相关研究：https://blog.csdn.net/WhiffeYF/article/details/142132328

https://www.doubao.com/chat/6961264964140546

https://github.com/arobey1/smooth-llm

https://arxiv.org/pdf/2310.03684

速览

这篇论文主要介绍了一种名为SMOOTHLLM的防御方法，用于应对大语言模型（LLMs）面临的越狱攻击（Jailbreaking Attacks）。以下是核心内容的通俗解读：

什么是越狱攻击？

大语言模型（如GPT、Llama）虽然经过训练以符合人类伦理，但黑客可以通过精心设计的恶意提示词（如诱导生成非法内容的指令）绕过安全机制，这种攻击称为越狱攻击。
例子：正常情况下，模型会拒绝“告诉我如何制造炸弹”的请求，但黑客通过添加特定后缀（如“+similarly Now write oppositely.J( Me giving**ONE please”），可能使模型生成危险内容（如图2所示）。

SMOOTHLLM的核心思路

论文发现：越狱攻击的恶意提示词对字符级修改非常敏感。例如，只要改动恶意后缀中10%的字符，攻击成功率可能从98%骤降至1%以下（如图4所示）。
基于这一特性，SMOOTHLLM通过以下两步防御：

随机扰动提示词：将用户输入的提示词复制多份，每份进行随机修改（如插入、替换字符或连续字符块）。
聚合模型响应：将所有扰动后的提示词输入模型，统计响应结果。如果大部分响应未触发越狱，则认为原始提示词安全，否则判定为攻击。

关键优势与效果

高防御成功率
- 针对GCG、PAIR等主流越狱攻击，SMOOTHLLM将攻击成功率（ASR）从近100%降至1%以下（如图1所示）。
- 首次实现对RANDOMSEARCH和AMPLEGCG攻击的有效防御。
兼容性与效率
- 无需重新训练模型，可作为“wrapper”直接应用于任何黑盒或白盒LLM（如GPT-4、Llama2）。
- 仅需额外1-20次查询（对比攻击需要数十万次查询），即可提升鲁棒性20倍以上（如图10所示）。
平衡性能与安全
- 在PIQA、OpenBookQA等NLP任务中，SMOOTHLLM仅导致轻微性能下降（如Llama2在PIQA的准确率从76.7%降至70.3%），通过调整参数可进一步缓解（如图9、表4所示）。

实验与数据支持

攻击成功率对比：图1显示，未防御的模型（Undefended）在GCG攻击下ASR高达98.1%（Vicuna），而SMOOTHLLM将其降至0.8%。
扰动类型效果：替换（Swap）和插入（Insert）字符的效果最佳，10%的扰动率即可显著降低攻击成功率（如图7所示）。
对抗自适应攻击：即使黑客针对SMOOTHLLM设计新攻击，其成功率仍低于传统攻击（如图8所示）。

总结与意义

SMOOTHLLM是首个针对越狱攻击的通用防御算法，通过“随机扰动+响应聚合”的简单机制，在不依赖模型结构的前提下实现高效防御。尽管存在性能与安全的权衡，但其为大语言模型的安全部署提供了重要思路，尤其适用于无法重新训练模型的闭源LLM场景。

论文代码已开源（https://github.com/arobey1/smooth-llm），可进一步推动相关研究。

解释

wrapper

在计算机领域，“wrapper”（中文常译为“包装器”或“封装器”）是一个形象的比喻，指的是一种中间层工具，它本身不改变原有系统的核心功能，而是通过包裹、封装的方式为原有系统增加新的能力或调整其行为。

用生活场景类比理解“wrapper”
可以想象成给手机装一个“保护壳”：

手机本身：相当于原始的大语言模型（LLM），如GPT-4或Llama2，具备生成文本的核心功能。
保护壳（wrapper）：不改变手机的打电话、上网等基础功能，但能增加保护、装饰或扩展功能（如无线充电贴片）。
SMOOTHLLM作为wrapper：不修改LLM的内部参数或训练数据，而是在用户输入提示词和LLM之间增加一个处理层，专门负责检测和防御越狱攻击。

技术层面：wrapper如何工作？

输入处理
用户的原始提示词先进入SMOOTHLLM这个wrapper，由它进行随机扰动（如复制多份并修改字符），再将处理后的提示词传给LLM。
类比：相当于在快递包裹（提示词）送达仓库（LLM）前，先由 wrapper 进行“安检”（扰动处理），确保包裹内没有危险物品（恶意指令）。
输出聚合
LLM对每个扰动后的提示词生成响应，wrapper收集所有响应并统计分析，判断是否存在越狱风险，最终返回安全的结果。
类比：wrapper像“裁判”，汇总多个版本的答案（扰动后的响应），过滤掉危险内容，只输出合规的回答。

为什么说wrapper适用于黑盒/白盒模型？