论文略读：Learning and Forgetting Unsafe Examples in Large Language Models

论文略读：Learning and Forgetting Unsafe Examples in Large Language Models

news2025/12/25 22:07:04

随着发布给公众的大语言模型（LLMs）数量的增加，迫切需要了解这些模型从第三方定制的微调数据中学习的安全性影响。
论文研究了在包含不安全内容的噪声定制数据上微调的LLMs的行为，这些数据集包含偏见、毒性和有害性
- 发现虽然对齐的LLMs可以轻松学习这些不安全内容，但当随后在更安全的内容上进行微调时，它们相对于其他示例更容易遗忘这些内容。
受到遗忘差异的启发，作者引入了“ForgetFilter”算法，该算法根据模型对数据的遗忘信号强度过滤不安全的数据。
- 论文证明ForgetFilter算法确保了在定制微调中的安全性，而不损害下游任务性能，这与顺序安全微调不同。
- 在抑制LLMs在定制微调过程中吸收不安全内容方面，ForgetFilter优于替代策略，如重播和道德自我纠正，例如毒性评分中不应用任何安全措施的下降了75%，比使用自我纠正下降了62%。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1901731.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

尚庭公寓——数据库设计

尚庭公寓——数据库设计

1. 数据的关系一对一，一对多（多对一），多对多 2. 实体关系模型实体关系模型常用ER图（enity relationship graph）表示； 矩形表示实体（类似Java中的对象，如学生就是一…

阅读更多...

Micron近期发布了32Gb DDR5 DRAM

Micron近期发布了32Gb DDR5 DRAM

Micron Technology近期发布了一项内存技术的重大突破——一款32Gb DDR5 DRAM芯片，这项创新不仅将存储容量翻倍，还显著提升了针对人工智能（AI）、机器学习（ML）、高性能计算（HPC）以及数…

阅读更多...

进程的控制-孤儿进程和僵尸进程

进程的控制-孤儿进程和僵尸进程

孤儿进程 ： 一个父进程退出，而它的一个或多个子进程还在运行，那么那些子进程将成为孤儿进程。孤儿进程将被 init 进程( 进程号为 1) 所收养，并由 init 进程对它们完成状态收集工作为了释放子进程的占用的系统资源： …

阅读更多...

每日一题~ （判断是否是合法的出栈序列）

每日一题~ （判断是否是合法的出栈序列）

大概的题意： 将 1-n 按照顺序进栈，问输入的序列是否是合法的出栈序列。遍历序列，如果当前这个值a小于栈顶的值，说明它还未进栈（因为我们是按照顺序进栈的），所以我们将一些元素进栈&#xff…

阅读更多...

SpringMVC：SpringMVC执行流程

SpringMVC：SpringMVC执行流程

文章目录一、介绍二、什么是MVC 一、介绍 Spring MVC 是一种基于Java的Web框架，它采用了MVC（Model - View - Controller）设计模式，通过吧Model、View和Controller分离，将Web层进行职责解耦，把复杂的Web应…

阅读更多...

【C++】解决 C++ 语言报错：Invalid Array Index

【C++】解决 C++ 语言报错：Invalid Array Index

文章目录引言无效数组索引（Invalid Array Index）是 C 编程中常见且危险的错误之一。当程序试图使用不合法的索引访问数组时，就会发生无效数组索引错误。这种错误不仅会导致程序崩溃，还可能引发不可预测的行为和安全漏洞。本文将…

阅读更多...

MySQL基础篇（二）字符集以及校验规则

MySQL基础篇（二）字符集以及校验规则

在MySQL基础篇（一）中，我们知道了如何创建数据库，这篇文章带大家了解创建的一些细节。红色框：可省略，作用如果存在相同的数据库名称，就不会再创建，反之，创建。蓝色框&…

阅读更多...

数据库考试大纲重点总结

数据库考试大纲重点总结

考试大纲第一章 5-10分 10分第二章 5-10分 10分1、计算除/象集2、连接3、选择4、投影5、代数表达式综合第三章 20分 20分1、修改表的信息用UPDATE2、创建索引3、有效性检查CHECK 和缺省值4、数据库表修改SQL语句5、挑选表中的数据赋给中间变量（一般用于存储过程…

阅读更多...

PyCharm如何安装requirements.txt中的依赖包

PyCharm如何安装requirements.txt中的依赖包

问题：下载别人的源码，如何安装代码中requirement.txt中的依赖包。解决方案： （1）打开PyCharm下面的Terminal，先为代码创建单独的虚拟环境并进入到虚拟环境中（每个项目单独的环境，这…

阅读更多...

C++|哈希应用-＞布隆过滤器

C++|哈希应用-＞布隆过滤器

目录一、概念二、模拟实现三、布隆过滤器扩展应用上一篇章学习了位图的使用，但它只适用于整数，对于要查询字符串是否在不在，位图并不能解决。所以针对这一问题，布隆过滤器可以派上用场，至于布隆过滤器是什么&am…

阅读更多...

绝区贰--及时优化降低 LLM 成本和延迟

绝区贰--及时优化降低 LLM 成本和延迟

前言大型语言模型 (LLM) 为各行各业带来了变革性功能，让用户能够利用尖端的自然语言处理技术处理各种应用。然而，这些强大的 AI 系统的便利性是有代价的 — 确实如此。随着 LLM 变得越来越普及，其计算成本和延迟可能会迅速增加，…

阅读更多...

论文回顾 | CVPR 2021 | How to Calibrate Your Event Camera | 基于图像重建的事件相机校准新方法

论文回顾 | CVPR 2021 | How to Calibrate Your Event Camera | 基于图像重建的事件相机校准新方法

论文速览 | CVPR 2021 | How to Calibrate Your Event Camera | 基于图像重建的事件相机校准新方法 1 引言在计算机视觉和机器人领域,相机校准一直是一个基础而又重要的问题。传统的相机校准方法主要依赖于从已知校准图案中提取角点,然后通过优化算法求解相机的内参和外参。这…

阅读更多...

以黑盒与白盒的角度分析和通关xss-labs(XSS漏洞类型与总结)

以黑盒与白盒的角度分析和通关xss-labs(XSS漏洞类型与总结)

目录目录前言 XSS漏洞的总结和梳理 1.第一关(基础palyload) 黑盒测试白盒测试 2.第二关(闭合) 黑盒测试白盒测试 3.第三关(字符转义) 黑盒测试白盒测试 4.第四关(字符过滤或替换) 黑盒测试白盒测试 5.第五关(关键词替换) 黑盒测试白盒测试 6.第六关(…

阅读更多...

DNS正向解析与反向解析实验

DNS正向解析与反向解析实验

正向解析安装bind软件 [rootlocalhost ~]# dnf install bind bind-utils -y修改主配置文件/etc/named.conf [rootlocalhost ~]# vim /etc/named.conf重启DNS服务（named） [rootlocalhost ~]# systemctl restart named编辑数据配置文件。在/var/named…

阅读更多...

G2.【C语言】EasyX绘制颜色窗口

G2.【C语言】EasyX绘制颜色窗口

1.窗口窗口：宽度*高度（单位都是像素） #include <stdio.h> #include <easyx.h> int main() {initgraph(640, 480);getchar();return 0; } 640是宽，480是高 2.操作窗口的三个按钮 #include <stdio.h> #incl…

阅读更多...

[FreeRTOS 功能应用] 事件组功能应用

[FreeRTOS 功能应用] 事件组功能应用

文章目录一、基础知识点二、代码讲解三、结果演示四、代码下载一、基础知识点 [FreeRTOS 基础知识] 事件组概念 [FreeRTOS 内部实现] 事件组本实验是基于STM32F103开发移植FreeRTOS实时操作系统，事件组实战操作。(当task1和task2同时完成，才执行ta…

阅读更多...

[240706] 史蒂夫·乔布斯近40年前就预言了苹果智能 | Globalping 用于网络诊断和性能测试的命令行工具

[240706] 史蒂夫·乔布斯近40年前就预言了苹果智能 | Globalping 用于网络诊断和性能测试的命令行工具

目录史蒂夫.乔布斯近40年前就预言了苹果智能Globalping 用于网络诊断和性能测试的命令行工具功能1. Ping2. Traceroute3. DNS 查询4. HTTP 请求使用场景1. 网络性能监测2. 故障排除3. 网站性能优化4. 服务可用性监控优势1. [全球覆盖](https://www.jsdelivr.com/network)2. …

阅读更多...

【linux学习---1】点亮一个LED是多么的困难！！！

【linux学习---1】点亮一个LED是多么的困难！！！

文章目录 1、原理图找对应引脚2、IO复用3、IO配置4、GPIO配置5、GPIO时钟使能6、总结7、编程8、编译9、链接10、格式转换11、反汇编（查看用）12、使用Makefile操作13、代码烧写14、代码验证 1、原理图找对应引脚从上图可以看出， 蜂鸣器接到…

阅读更多...

2024全网最全面及最新且最为详细的网络安全技巧五之 SSRF 漏洞EXP技巧，典例分析以及如何修复 (上册)———— 作者：LJS

2024全网最全面及最新且最为详细的网络安全技巧五之 SSRF 漏洞EXP技巧，典例分析以及如何修复 (上册)———— 作者：LJS

五——SSRF漏洞 EXP技巧，典例分析以及如何修复目录五——SSRF EXP技巧，典例分析以及如何修复 5.1Apache mod_proxy SSRF（CVE-2021-40438）的一点分析和延伸 0x01 Apache Module综述 0x02 漏洞原理分析 Apache在配置反代的后端…

阅读更多...

跟《经济学人》学英文：2024年07月06日这期：Finishing schools for the age of TikTok

跟《经济学人》学英文：2024年07月06日这期：Finishing schools for the age of TikTok

Finishing schools for the age of TikTok Unsure how to be polite at work? Ask a digital etiquette guru 不确定如何在工作中保持礼貌？请教一位数字礼仪大师 “Finishing schools” 是指专门为年轻女性提供礼仪、社交技巧、文化修养等教育的学校，…

阅读更多...

推荐文章

最新文章