【自监督论文阅读笔记】What Makes for Good Views for Contrastive Learning?

news2025/7/18 20:27:47

Abstract

        数据的多个视图之间的对比学习最近在自监督表示学习领域取得了最先进的性能。尽管取得了成功,但对不同视角选择的影响研究较少。在本文中,我们使用理论和实证分析来 更好地理解视图选择的重要性,并认为我们应该减少视图之间的互信息 (MI)同时保持任务相关信息的完整性。为了验证这一假设,我们 设计了无监督和半监督框架,旨在通过减少 MI 来学习有效视图。我们还将数据增强视为减少 MI 的一种方式,并表明 增加数据增强 确实会导致 MI 降低 并 提高下游分类准确性。作为副产品,我们在 ImageNet 分类的无监督预训练中实现了新的最先进的准确度(73% top-1 线性读数与 ResNet-50)。


1 Introduction

        常识是,你如何看待一个对象并不会改变它的身份。尽管如此,豪尔赫·路易斯·博尔赫斯 (Jorge Luis Borges) 想到了另一种选择。在他关于 Funes the Memorious 的短篇小说中,这个同名的主角开始烦恼 “一只三点十四分(从侧面看)的狗应该与三点十五分(从前面看)的狗同名”[8]。富内斯的诅咒是他拥有完美的记忆力,他看待世界的每一种新方式都揭示了一种与他以前所见的事物截然不同的知觉。他无法整理这些截然不同的经历。

        幸运的是,我们大多数人都没有遭受这种诅咒。我们建立了身份的心理表征,以消除诸如一天中的时间和视角之类的麻烦。建立视图不变表示的能力是丰富的多视图学习研究的核心。这些方法寻求对一系列观察条件不变的世界表示。目前,一种流行的范例是对比多视图学习其中 同一场景的两个视图在表示空间中汇集在一起​​,而不同场景的两个视图被推开

        这是一个自然而有力的想法,但它留下了一个重要的问题:“我们应该对哪些观察条件保持不变?”可能会走得太远:如果我们的任务是对一天中的时间进行分类,那么我们当然不应该使用不随时间变化的表示。或者,像 Funes 一样,我们走得还不够远:独立表示每个特定的视角会削弱我们跟踪狗在场景中移动的能力

        因此,我们寻求具有足够不变性的表示,以便 对无关紧要的变化具有鲁棒性,但又不会丢弃下游任务所需的信息。在对比学习中,“视图”的选择 是 控制表示捕获的信息的因素,因为 框架会产生侧重于视图之间共享信息的表示 [53]。视图通常是不同的感官信号,如照片和声音 [3 ],或不同的图像通道[66] 或 时间切片[69],但 也可能是同一数据张量的不同“增强”版本[10 SimCLR]如果共享信息很小,那么学习到的表示可以丢弃更多关于输入的信息,并实现更大程度的对无用变量的不变性。我们如何才能 找到恰到好处的视角平衡,只分享我们需要的信息,不多也不少?

我们通过两种方式研究这个问题:

1) 我们证明了视图的最佳选择关键取决于下游任务。如果您了解任务,通常可以设计出有效的视图。

2) 我们凭经验证明,对于许多生成视图的常见方式,在下游性能方面有一个最佳点,视图之间的互信息 (MI) 既不太高也不太低

        我们的分析提出了一个“InfoMin 原则”一组好的视角是 那些 共享在下游任务中表现良好所必需的最少信息的视角。这个想法 与最小充分统计的想法 [61] 和 信息瓶颈理论 [ 68, 2] 的想法有关,这些理论先前已经在表示学习文献中阐述过。这一原则还 补充了已经流行的“InfoMax 原则”[45],表示学习的目标是尽可能多地捕获有关刺激的信息。我们认为,最大化信息仅在信息与任务相关时才有用。除此之外,抛出有关有害变量信息的学习表示是更可取的,因为它可以提高泛化能力 并 降低下游任务的样本复杂性 [61]。

        根据我们的发现,我们 还引入了一种半监督方法来学习视图,当下游任务已知时,这些视图对于学习良好的表示是有效的。我们还证明了 InfoMin 原则可以通过简单地寻求更强的数据增强来实际应用,以 进一步朝着最佳点减少互信息。这项工作在标准基准上实现了最先进的准确性。

我们的贡献包括:

• 证明对比表示学习的最佳视角是任务相关的

• 根据经验在各种设置中发现 互信息估计和表示质量之间的U形关系

• 一种新的半监督方法,用于学习针对给定任务的有效视图。

• 运用我们的理解,使用 ResNet-50 在 ImageNet 线性读出基准上实现 73.0% 的最先进准确度。


2 Related Work

        最近,最具竞争力的无标签学习表征方法是 自监督对比表征学习 [53、32、73、66、62、10]。这些方法通过“对比”损失来学习表示,这种损失将不同的数据对分开,同时将相似的数据对放在一起,这种想法类似于 exemplar learning 范例学习 [21]。基于对比损失的模型明显优于其他方法 [80、38、54、66、20、52、19、24、78]。

        对比学习中的主要设计选择之一是如何选择相似(或正)和不同(或负)对。在没有额外注释的情况下 生成正样本对的标准方法 为每个数据点创建多个视图。例如:亮度和色度分解 [66],,随机增强图像两次[73, 10, 6, 28, 76, 63, 81, 83],使用不同时间步长的视频 [53, 82, 59, 27, 26]、同一图像的补丁[34、53、32]、多感官数据[50、12、55]、文本及其上下文[48、75、46、41],或学生和教师模型的表示[67 ]。负样本对可以是随机选择的图像/视频/文本。从理论上讲,我们可以认为 正对来自视图的联合分布 p(v1, v2) ,而 负对来自边际的乘积 p(v1)p(v2) 开发对比学习目标 InfoNCE [53](或 Deep InfoMax [32])以 最大化两个视图 I(v1; v2) 之间互信息的下限。这种联系已在 [57、70] 中进一步讨论。

        在对比表示学习中利用标记数据已被证明可以 将表示引导到任务相关的特征,从而提高性能 [77、31、36、72]。在这里,我们使用标记数据来学习更好的视图,但仍然仅使用未标记数据执行对比学习。未来的工作可以结合这些方法来利用标签进行视图学习和表示学习。此外,之前的工作[4] 研究了不同数量图像的增强效果

(【4】A critical analysis of self-supervision, or what we can learn from a single image.)


3 什么是对比学习的最佳视图?

        在本节中,我们首先介绍标准的多视图对比表示学习公式,然后研究什么是对比学习的最佳视图。

3.1 多视图对比学习

        给定两个随机变量 v1 和 v2,对比学习的目标学习一个参数函数区分 来自经验联合分布 p(v1)p(v2|v1) 的样本 和 来自边缘乘积 p(v1)p(v2) 的样本生成的函数是 v1 和 v2 之间互信息的估计量InfoNCE 损失 [53] 已被证明可以最大化 I(v1; v2) 的下限。在实践中,给定一个锚点 v1,i,InfoNCE 损失被优化为正确的正样本 v2,i ∼ p(v2|v1,i) 的得分高于一组 K 干扰项 v2,j ∼ p(v2):

        最小化此损失 等效地 最大化 I(v1; v2) 上的下限(又名 INCE(v1; v2)),即 I(v1; v2) ≥ log(K) − LNCE = INCE(v1; v2)。实际上,v1 和 v2 是数据 x 的两个视图,例如同一图像的不同增强 [73、6、28、11、10]、不同的图像通道 [66] 或视频和文本对 [65、47 , 42]。评分函数 h(·,·) 通常由两个编码器(f1 用于 v1 和 f2 用于 v2)组成,它们可能共享也可能不共享参数,具体取决于 v1 和 v2 是否来自同一域。结果表示为 z1 = f1(v1) 和 z2 = f2(v2)(见图 1a)。


定义 1.

        (Sufficient Encoder 足够的编码器)当且仅当 I(v1; v2) = I(f1(v1); v2) 时,v1 的编码器 f1 在对比学习框架中是足够的。

        直观地说,如果在编码过程中 v1 中关于 v2 的信息量是无损的,则编码器 f1 就足够了。换句话说,z1 保留了对比学习目标所需的所有信息。对称地,如果 I(v1; v2) = I(v1; f2(v2)),则 f2 就足够了。


定义 2.

        (Minimal Sufficient Encoder 最小充分编码器)v1 的充分编码器 f1 是最小的,当且仅当  ,∀ f 是充分的。

        在那些足够的编码器中,最小的编码器只提取对比任务的相关信息并丢弃其他不相关的信息。在视图 以 我们关心的所有信息 在它们之间共享 的方式 构建的情况下,这很有吸引力。


        在对比框架中学习的表示通常用于单独的下游任务。为了表征哪些表示对下游任务有益,我们定义了表示的最优性。为了使符号简单,我们使用 z 来表示它可以是 z1 或 z2。

定义3.

        (任务的最优表示)对于目标是从输入数据 x 预测语义标签 y 的任务 T,从 x 编码的最优表示 z* 是关于 y 的最小充分统计量

        这表示建立在 z* 之上的模型具有预测 y 所需的所有信息就像访问 x 一样准确。此外,z*保持最小的复杂性,即除了关于 y 的信息外不包含其他信息,这使得它更具泛化性 [61]。我们建议读者参考 [61],以更深入地讨论最佳视觉表示和最小充分统计量。


3.2 信息捕获的三种机制

         由于我们的表示 z1、z2 是根据我们的视角构建的,并在假设编码器最少的情况下通过对比目标学习,因此 v1 和 v2 之间共享的信息量和类型(即 I(v1; v2))决定了决定我们在下游任务上的表现。与信息瓶颈 [68] 一样,我们可以在我们的视角共享多少关于输入的信息与我们学习的表征在预测任务 y 方面的表现之间进行权衡。根据我们的视角是如何构建的,我们 可能会发现我们在丢弃相关变量的同时 保留了太多不相关的变量,从而导致信息平面上的性能不佳。或者,我们可以找到 最大化 I(v1; y) 和 I(v2; y)(关于任务标签包含多少信息)同时 最小化 I(v1; v2)(关于输入共享了多少信息,包括与任务相关和无关的信息)

即使在这些最佳轨迹的情况下,我们也可以考虑三种性能机制,如图 1b 所示,并且之前在信息瓶颈文献 [68、2、23] 中已经讨论过:

1. 缺失信息:当 I(v1; v2) < I(x; y) 时,视图 会丢弃任务相关变量的信息,从而降低性能。

2. Sweet spot最优点:当 I(v1; y) = I(v2; y) = I(v1; v2) = I(x; y) 时,v1 和 v2 之间共享的唯一信息是任务相关的,并且有没有无关紧要的噪音

3. 过量噪声:随着我们增加视图中共享的信息量超过 I(x; y),我们开始包含与下游任务无关的额外信息。这可能导致下游任务 [2, 60] 的泛化更差

        我们假设 性能最好的视图将接近最佳点包含尽可能多的任务相关信息,同时尽可能多地丢弃输入中不相关的信息。更正式地说,以下 InfoMin 命题阐明了假设 我们事先知道特定的下游任务 T 哪些视图是最优的。证明在附录的 A.2 节中。


命题 3.1。

        假设 f1 和 f2 是最小足够编码器。给定一个带有标签 y 的下游任务 T,从数据 x 创建的最佳视图是 (v1*, v2*) = arg minv1,v2 I(v1; v2),服从 I(v1; y) = I(v2; y) = I(x; y)。给定 v1*、v2*,通过对比学习学习的表示 z*1(或 z*2)对于 T是最优的(Def 3),这要归功于 f1 和 f2 的最小性和充分性。

        与信息瓶颈不同,对于对比学习,我们通常无法访问预先指定下游任务的完全标记的训练集,因此评估训练时视图和表示中包含多少与任务相关的信息具有挑战性。相反,视图的构建通常由领域知识指导,领域知识在保留与任务相关的变量的同时改变输入


What Makes for Good Views for Contrastive Learning - 知乎


3.4 数据增强以减少视图之间的相互信息

        多个视图也可以通过以不同方式增强输入来生成。我们可以通过视图生成的角度来统一最近的几种对比学习方法:尽管在体系结构、目标和工程技巧方面存在差异,但所有最近的对比学习方法都创建了隐含遵循 InfoMin 原则的两个视图 v1 和 v2。下面,我们考虑了该框架中的几项近期工作:

InstDis [73] 和 MoCo [28]。

        这两种方法通过对同一输入两次应用随机数据增强函数来创建视图:(1) 从经验分布 p(x) 中采样图像 X; (2) 从数据增强函数 T 的分布中抽取两个独立的变换 t1、t2; (3) 设 v1 = t1(X) 和 v2 = t2(X)。


CMC [66]。

        CMC 进一步跨颜色通道分割图像,使得 v{_{1}^{cmc}} 是 v1 的第一个颜色通道,v2cmc 是 v2 的最后两个通道。通过这种设计,理论上可以保证 I(vcmc1 ; vcmc2 ) ≤ I(v1; v2),并且我们观察到 CMC 的性能优于 InstDis


PIRL[49]。

        PIRL 保持 v1pirl = v1,但使用 随机 JigSaw 洗牌 h 来转换另一个视图 v2 以获得 v2 pirl = h(v2)。类似地,我们有 I(vpirl 1 ; vpirl 2 ) ≤ I(v1; v2) ,因为 h(·) 引入了随机性。 


SimCLR [10]。

        尽管有其他工程技术和技巧,SimCLR 使用更强的增强类 T',这导致两个视图之间的互信息比 InstDis 更小


CPC [53]。

        与 上述在图像级别创建视图的方法 不同,CPC 从具有 强数据增强(例如 RA [15])的局部 patches 中获取视图 v1cpc 、 v2cpc ,从而导致更小的 I(v1cpc ; v2cpc )。与第 3.3 节一样,从不相交的patches 中裁剪视图也减少 I(v1cpc ; v2cpc )。

([15] Randaugment: Practical data augmentation with no separate search.)

        此外,我们还分析了改变单个增强函数的大小参数是如何形成倒U形的。我们考虑 RandomResizedCrop 和 Color Jittering。对于前者,参数 c 设置低区域裁剪边界,c 越小表示增强越强。对于后者,采用参数 x 来控制强度。 ImageNet [16] 上的图如图 5 所示,我们在其中确定了 Color Jittering 的最佳位置为 1.0,RandomResizedCrop 的最佳位置为 0.2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/395870.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

三分钟完成Stable Diffusion本地安装(零基础体验AI绘画)

三分钟完成Stable Diffusion本地安装前言安装步骤下载链接前言 最近AI绘画很火&#xff0c;很多无编程基础的小伙伴也想体验一下&#xff0c;所以写这篇博客来帮助小伙伴们愉快的体验一下~废话少说&#xff0c;我们直接开整&#xff01; 安装步骤 首先&#xff0c;下载本项目的…

电脑启动后显示器黑屏怎么办?排查下面4个问题,快速解决

电脑启动出现显示器黑屏是一个相当常见的问题。如果您遇到了这个问题&#xff0c;不要惊慌&#xff0c;因为它有很多可能的原因&#xff0c;可以采取一些简单的措施来解决它。在本文中&#xff0c;小编将介绍下面4种常见的电脑启动后显示器黑屏的原因&#xff0c;排查这些原因&…

合并两个有序链表(精美图示详解哦)

全文目录引言合并两个有序链表题目描述方法一&#xff1a;将第二个链表合并到第一个思路实现方法二&#xff1a;尾插到哨兵位的头节点思路实现总结引言 在前面两篇文章中&#xff0c;我们介绍了几道链表的习题&#xff1a;反转链表、链表的中间结点、链表的倒数第k个结点&…

基于单细胞多组学数据无监督构建基因调控网络

在单细胞分辨率下识别基因调控网络&#xff08;GRNs&#xff0c;gene regulatory networks&#xff09;一直是一个巨大的挑战&#xff0c;而单细胞多组学数据的出现为构建GRNs提供了机会。 来自&#xff1a;Unsupervised construction of gene regulatory network based on si…

力扣sql简单篇练习(二十四)

力扣sql简单篇练习(二十四) 1 各赛事的用户注册率 1.1 题目内容 1.1.1 基本题目信息 1.1.2 示例输入输出 a 示例输入 b 示例输出 1.2 示例sql语句 SELECT contest_id,ROUND(count(*)/(SELECT count(user_id) FROM Users)*100,2) percentage FROM Register GROUP BY contes…

MQTT协议-使用CONNECT报文连接阿里云

使用网络调试助手发送CONNECT报文连接阿里云 参考&#xff1a;https://blog.csdn.net/daniaoxp/article/details/103039296 在前面文章介绍了如何组装CONNECT报文&#xff0c;以及如何计算剩余长度 CONNECT报文&#xff1a;https://blog.csdn.net/weixin_46251230/article/d…

【C语言】详解静态变量static

关键字static 在C语言中&#xff1a;static是用来修饰变量和函数的static主要作用为:1. 修饰局部变量-静态局部变量 2. 修饰全局变量-静态全局变量3. 修饰函数-静态函数在讲解静态变量之前&#xff0c;我们应该了解静态变量和其他变量的区别: 修饰局部变量 //代码1 #include &l…

OpenTelemetry 实现方案

OpenTelemetry 有很多种组合和实现方案&#xff0c;我们分别来了解一下 OpenTelemetry 在三种不同技术架构下的使用方式。 1、OpenTelemetry to 开源工具组合 作为经典的对各种遥测数据的处理架构&#xff0c;开源工具可将不同类型的数据存储在不同的平台&#xff0c;比如日志…

倒立摆建模

前言 系统由一辆具有动力的小车和安装在小车上的倒立摆组成&#xff0c;系统是不稳定&#xff0c;我们需要通过控制移动小车使得倒立摆保持平衡。 具体地&#xff0c;考虑二维情形如下图&#xff0c;控制力为水平力FFF&#xff0c;输出为角度θ\thetaθ以及小车的位置xxx。 力…

【WebRTC---序篇】(五)信令逻辑

关于信令的几个问题 信令发送的过程信令发送的时机:用户点connec按钮;选中connect按钮后,按回车键; Windows会分发给消息处理机制,而触发OnDefaultAction中调用Conduction的StartLogin; StartLogin里面会调用pcc_client(信令模块)的Connect; 如果是域名,进行域名解析,之后…

SQL注入——布尔盲注

目录 一&#xff0c;盲注的概念 二&#xff0c;盲注分类 三&#xff0c;注入方法的选择 四&#xff0c;关键函数 五&#xff0c;实例 一&#xff0c;盲注的概念 页面没有报错回显&#xff0c;不知道数据库具体返回值的情况下&#xff0c;对数据库中的内容进行猜解&#x…

【历史上的今天】3 月 8 日:游戏机之父诞辰;搜索技术理论之父出生;MIT 公开演示旋风计算机

整理 | 王启隆 透过「历史上的今天」&#xff0c;从过去看未来&#xff0c;从现在亦可以改变未来。 今天是 2023 年 3 月 8 日&#xff0c;在 1857 年的今天&#xff0c;美国纽约制衣和纺织女工举行了首次大型抗议活动。妇女节是纪念妇女权利运动的国际性节日。设立国际妇女节…

【打卡-Coggle竞赛学习2023年3月】对话意图识别

学习链接&#xff1a; https://coggle.club/blog/30days-of-ml-202303 ## Part1 内容介绍 本月竞赛学习将以对话意图识别展开&#xff0c;意图识别是指分析用户的核心需求&#xff0c;错误的识别几乎可以确定找不到能满足用户需求的内容&#xff0c;导致产生非常差的用户体验…

2.6 棋盘覆盖

在一个2*x2‘个方格组成的棋盘中&#xff0c;若怡有一个方格与其他方格不同&#xff0c;则称该方格为特殊方格&#xff0c;且称该棋盘为一特殊棋盘。显然&#xff0c;特殊方格在棋盘上出现的位置有 4种情形因而对任何k0&#xff0c;有4‘种特殊棋盘。图2-4 申的特殊棋益是12时 …

【项目设计】高并发内存池(七)[性能测试和提升]

&#x1f387;C学习历程&#xff1a;入门 博客主页&#xff1a;一起去看日落吗持续分享博主的C学习历程博主的能力有限&#xff0c;出现错误希望大家不吝赐教分享给大家一句我很喜欢的话&#xff1a; 也许你现在做的事情&#xff0c;暂时看不到成果&#xff0c;但不要忘记&…

初学JavaScript有困难?看过来,详细安排

你肯定没有尝试归纳&#xff0c;可以把每天学习的内容&#xff0c;用思维导图整理归类&#xff0c;这样看着就清晰多了。把基础入门做成5天的学习计划&#xff0c;其实很简单&#xff0c;你可以参考以下内容 第一天学习目标&#xff1a; 1. 理解变量是存储数据的“容器” 2.…

Linux -- 磁盘存储管理 分区类型(MBR,GPT)

首先呢&#xff0c;大家要清楚&#xff0c;在 Linux 上&#xff0c;分区类型有两种 &#xff1a;一种是MBR, 一种 GPT ~&#xff01;&#xff01;&#xff01;我们所谓的分区、分盘&#xff0c;其实是一回事儿。分区&#xff0c;就是对磁盘划分 逻辑边界&#xff0c; 注意是逻辑…

LAY-EXCEL导出excel并实现单元格合并

通过lay-excel插件实现Excel导出&#xff0c;并实现单元格合并&#xff0c;样式设置等功能。更详细描述&#xff0c;请去lay-excel插件文档查看&#xff0c;地址&#xff1a;http://excel.wj2015.com/_book/docs/%E5%BF%AB%E9%80%9F%E4%B8%8A%E6%89%8B.html一、安装这里使用Vue…

带你感受一次JVM调优实战

本文分成两部分&#xff0c;先了解理论&#xff0c;然后再进行实战。 理论篇 1.1 调优目标 JVM调优的两大目标是&#xff1a; 提高应用程序的性能和吞吐量&#xff1a; 通过优化JVM的垃圾回收机制、调整线程池大小和优化代码&#xff0c;可以提高应用程序的性能和吞吐量。…

见证 2022re:Invent 大会及亚马逊云科技发展有感

文章目录&#x1f4cb;前言&#x1f3af;关于亚马逊云科技 re:Invent 全球大会&#x1f9e9;什么是亚马逊云科技 re:Invent 全球大会&#x1f9e9;回顾往届大会&#x1f3af;回顾2022亚马逊云科技 re:Invent 全球大会&#x1f9e9;前言&#x1f9e9;宣告大数据迈向 Serverless …