[论文评析]mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018,

news2025/5/25 0:24:09

mixup: B EYOND E MPIRICAL R ISK M INIMIZATION

  • 介绍
  • Mixup
  • Mixup的提出动机
  • Mixup与常规数据增广方法的区别
  • References


介绍

采用ERM训练的模型往往存在泛化能力差的情形-可能是在简单的记忆样本, 对于噪声干扰的鲁棒性很差.
这篇论文提出了一种新的数据增广方法-Mixup, 这里主要介绍该方法的使用, 及其提出的缘由.

Mixup

简单易句话来讲, Mixup实际上就是在训练集的样本对之间进行插值(Input和Output同时进行插值)来产生新的样本, 这些新生成的Samples就是训练集中Input-Output的凸组合, 然后模型在这些增广的数据集上再进行训练,能够提升泛化能力.

在这里插入图片描述
上图就是Mixup的pytorch代码代码实现, 可以看到: 每次随机选择两个样本对,然后进行插值, 插值过程如下:
在这里插入图片描述其中插值系数 λ \lambda λ从Beta分布中进行采样.

右图是ERM和Mixup训练的模型决策边界对比. 可以看到与ERM相比, Mixup的类别之间决策边界过度非常平滑 (线性过度),

Mixup的提出动机

先来回顾下ERM的理论:

理论上, 我们希望通过最新化模型在分布P上的期望风险来训练模型, 如下:
在这里插入图片描述然而P往往是未知的. 实际中我们只能获取到有限个样本用于训练模型(即所谓的训练集), 因此,实际上我们是通过最小化模型在训练集上的经验风险ERM来优化模型, 如下:
在这里插入图片描述当采用了ERM,关于P的一个潜在假设是:
在这里插入图片描述对这个函数的简单理解是: P仅在样本空间中训练集对应的n个点处采样概率相等且为1/n, 换言之在除了这n个点以外的其他区与采样概率为0.

这就不难理解了, 训练模型时只要在这n个samples拟合好就行了, 这可能导致模型在其他区域的泛化能力极差.

那么Mixup关于P的潜在假设是什么?

Mixup实际上假设P服从如下的类邻近分布:
在这里插入图片描述可以看到,其相当于是在任意两个sample-pair之间进行插值, 而且是x和y同时进行插值, 这样一种线性插值的方式决定了训练后的模型在不同类别之间的预测呈现出一种线性/平滑过度,

关于Mixup方法的更深层次理论分析参见ICLR 2021的一篇论文: HOW DOES MIXUP HELP WITH ROBUSTNESS AND GENERALIZATION?

Mixup与常规数据增广方法的区别

规数据增广方法非常多,本质上都是仅对输入进行扰动, 并没有对样本的近邻关系进行建模.

Mixup方法实际上对样本间的近邻关系进行了建模.

References

1.mixup: B EYOND E MPIRICAL R ISK M INIMIZATION, ICLR 2018;
2.HOW DOES MIXUP HELP WITH ROBUSTNESS AND GENERALIZATION? ICLR 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/568263.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【ChatGPT】不会用ChatGPT?这几个镜像网站解决你的烦恼。

个人主页:【😊个人主页】 文章目录 前言ChatGPT介绍WoChatA TalkChatGPT Next WebAI EDUCHATGPTSITES 前言 还在为需要魔法才能与ChatGPT见上一面而叹息吗,今我就为大家汇总了国内能使用ChatGPT的方法。 也就是用国内的镜像网站玩ChatGPT&…

javaWeb 酒店民宿预定信息管理系统myeclipse开发mysql数据库MVC模式java编程计算机网页设计

一、源码特点 java ssh酒店民宿预定信息管理系统是一套完善的web设计系统(系统采用ssh框架进行设计开发),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为T…

2023阿里云学生服务器权益,含Clouder认证:云服务器ECS答案

文章目录 阿里云学生权益(服务器使用7个月)1、高校计划续费任务 - 飞天加速计划3.0(2个任务)2、任务1:完成实验《ECS云服务器新手上路》2.2: 续费6个月 3、任务2:Apsara Clouder云计算专项技能认…

【多线程】线程的可见性

目录 一、什么是线程的可见性二、可见性问题示例2.1 代码2.2 截图 三、解决可见性问题3.1 volatile关键字3.2 synchronized关键字 四、用volatile关键字解决可见性问题示例4.1 代码4.2 截图 五、用synchronized关键字解决可见性问题示例5.1 代码5.2 截图 六、可见性与原子性 一…

( 数组) 59. 螺旋矩阵 II ——【Leetcode每日一题】

❓59. 螺旋矩阵 II 难度:中等 给你一个正整数 n ,生成一个包含 1 到 n 2 n^2 n2 所有元素,且元素按顺时针顺序螺旋排列的 n x n 正方形矩阵 matrix 。 示例 1: 输入:n 3 输出:[[1,2,3],[8,9,4],[7,6,5…

如何动态显示物品提示?

UE5 插件开发指南 前言0 提示信息窗口类前言 为了使物品的排列简洁,各种游戏里的物品信息都是以提示的形式展示出来,而不是整个铺排陈列,只需要玩家鼠标悬停在物品上就自动显示出提示窗口,如下图所示: 这些提示信息在物品定义数据资产中已经定义了,所以这里要做的只是将…

大数据赋能商业地产研策

商业地产是城市经济的重要支柱,也是城市形象的重要名片。在消费者需求日益多元和个性化的背景下,商业地产面临着激烈的市场竞争和运营效率的挑战。如何在复杂多变的市场环境中,做出科学合理的投资决策和运营策略,是商业地产企业的…

Emacs之高效切换窗口(九十二)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 人生格言: 人生…

软件测试:功能测试----测试范围和测试策略

一、前言 什么是软件测试?测试能够给我们带来什么?对于企业有什么好处? 软件测试,说的直白就是找bug,而针对的就是我们使用的一些app,网页,系统等等。与之而来的还有硬件测试,这里…

【自动化测试】Java+Selenium自动化测试环境搭建

本主要介绍以Java为基础,搭建Selenium自动化测试环境,并且实现代码编写的过程。 1.Selenium介绍 Selenium 1.0 包含 core、IDE、RC、grid 四部分,selenium 2.0 则是在两位大牛偶遇相互沟通决定把面向对象结构化(OOPP&#xff09…

微软 Build 2023:人工智能重新定义软件开发与工作的未来

2023年5月23日,美国华盛顿州西雅图 —— 微软年度开发者大会Build 2023在西雅图开幕,面对当今由AI引领的技术趋势,微软向超过20万名注册参会的开发者集中展示人工智能如何给软件开发的对象、过程和工具带来巨大变革,并重新定义工作…

MVC框架实现用户登录注册功能(连接数据库)

目录 一、简单理解MVC框架 二、项目结构 三、项目源码 3.1 User 3.2 UserDao 3.3 RegisterDao 3.4 servletControll 3.5 servletControllRegister 3.6 web.xml 3.7 login.jsp 3.8 register.jsp 3.9 success.jsp 3.10 failure.jsp 四、实现效果 总结 前言 本篇文…

vue 3 第二十六章:样式(scoped及样式穿透)

文章目录 1. 介绍2. 基本使用3. scoped原理4. 穿透选择器修改全局样式 1. 介绍 在 Vue 中&#xff0c;我们可以使用 scoped 特性来给组件的样式添加作用域。通过为组件的 <style> 标签添加 scoped 特性&#xff0c;我们可以确保组件的样式仅应用于该组件的模板中&#x…

第56章:socket介绍

socket允许位于同一主机&#xff08;计算机&#xff09;或使用网络连接起来的不同主机上的应用程序之间交换数据 概述 在一个典型的客户端/服务器场景中&#xff0c;应用程序使用socket 进行通信的方式如下&#xff1a; 各个应用程序创建一个socket。socket 是一个允许通信的…

项目压测相关

几个重要指标的关系 QPS 并发数/平均响应时间 并发数 QPS*平均响应时间 也就是说&#xff0c;并发连接数代表服务器抗压能力&#xff0c;接收连接的能力。qps代表在相同的并发数下&#xff0c;服务器处理的速度&#xff0c;响应时间越短&#xff0c;那么qps就越大。 不是说并发…

Unity Lightmapping Setting

如下图&#xff1a; Lightmapper: 使用什么硬件或算法渲染 Progressive CPU、Progressive GPU、Enlighten(新的算放目前用的比较少) 此数值会被用于分别乘以Direct Samples&#xff0c;Indirect Samples和Environment Samples这三个数值。这三个数值会被应用于…

【Netty】Netty 如何实现零拷贝(八)

文章目录 前言一、Java 实现零拷贝1.1 Java提供 mmap/write 方式1.2 Java 提供 sendfile 方式 二、Netty 实现零拷贝2.1 CompositeByteBuf 方式2.1 wrap 方式2.3 slice 方式2.4 FileRegion 方式 总结 前言 回顾Netty系列文章&#xff1a; Netty 概述&#xff08;一&#xff0…

李沐多模态串讲笔记

李沐多模态串讲笔记 0.来源1.回顾1.1 ViLT回顾1.2 Clip回顾1.3回顾小结 2.ALBEF2.1摘要2.2主体方法部分2.2.1模型设计2.2.2目标函数2.2.3momentum distillation 动量蒸馏 2.3下游任务和实验结果 3.VLMo3.1论文贡献3.2研究动机3.3主体方法部分3.3.1模型设计3.3.2分阶段的训练策略…

Android 12 通知样式整理

目录 0. &#x1f4c2; 前言 1. &#x1f531; 通知样式总览 2. ⚛️ 通知样式详解 2.1 Simple Notifiaction 2.2 Action Notifiaction 2.3 Remote Input Notifiaction 2.4 Big Picture Notifiaction 2.5 Big Text Notifiaction 2.6 Inbox Notifiaction 2.7 Media No…

Cobalt Strike工具基本使用

Cobalt Strike 安装启动启动server端启动client目标机器连接 工具基使用用户驱动攻击屏幕截图进程列表键盘记录文件管理远程vnc远程代理端口扫描 生成后门被攻击者运行后门文件后查看结果 钓鱼攻击信息收集网站克隆文件下载 安装 网盘地址&#xff1a;链接&#xff1a;https:/…