Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

news2026/3/26 17:51:53
Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot ClassificationAuthors:Dipam Goswami, Simone Magistri, Gido M. van de Ven, Bartłomiej Twardowski, Andrew D. Bagdanov, Tinne Tuytelaars, Joost van de WeijerDeep-Dive Summary:跨模态原型对齐与混合用于免训练小样本分类摘要像CLIP这样的视觉-语言模型VLMs以对齐文本和图像对为目标进行训练。为了改进基于CLIP的小样本图像分类近期研究观察到除了文本嵌入外训练集中的图像嵌入也是重要的信息来源。本文研究了直接混合图像和文本原型对小样本分类的影响并从偏差-方差的角度进行分析。我们证明了混合原型类似于收缩估计器。虽然混合原型提升了分类性能但图像原型仍会引入噪声表现为实例特定的背景或上下文信息。为了仅捕获与给定分类任务相关的图像空间信息我们提出将图像原型投影到语义文本嵌入空间的主方向上以获得文本对齐的语义图像子空间。当这些文本对齐的图像原型与文本嵌入混合时分类性能进一步提升。然而对于CLIP跨模态对齐较差的下游数据集语义对齐可能并非最优。我们证明通过使用类协方差建模各向异性图像子空间仍然可以被利用。我们展示了结合文本对齐混合原型分类器和图像特定LDA分类器的方法在多个小样本分类基准上优于现有方法。关键词视觉-语言模型 · 跨模态对齐 · 混合原型1 引言像CLIP这样的视觉-语言模型VLMs使用对称对比损失进行训练该损失最大化图像与其对应文本之间的相似度同时将其推离负样本文本反之亦然。这产生了一个共享嵌入空间其中语义对应的图像和文本表示在几何上对齐。因此CLIP实现了强大的零样本性能其中分类通过测试图像与文本编码器编码的文本提示文本原型之间的余弦相似度来执行。然而由于信息不对称——文本提示很少描述整幅图像——文本和图像嵌入最终未能完全对齐而是占据了共享CLIP嵌入空间中由模态间隙分隔的区域。图1给定分类问题图像潜在空间应以不同方式利用。文本原型定义的语义空间定义了相关子空间。我们提出文本对齐的图像特征语义投影仅使用相关子空间进行分类。通过提出的任务特定语义投影P1和P2获得的注意力图表示任务相关区域。几项研究探索了仅有少量训练图像可用的少样本设置并证明使用图像嵌入结合文本嵌入可以提升分类性能。这些方法包括以不同形式结合图像和文本嵌入的免训练方法以及通过学习提示或适配器来调整VLM的方法。尽管现有工作已经利用了混合的图像和文本表示但缺乏一种有原则的、免训练的方法来处理噪声图像原型少量样本图像特征的均值。在本文中我们分析了少样本设置中基于混合原型的分类并证明混合原型是一种收缩估计器通过控制偏差-方差权衡来改进原型估计。虽然朴素地混合原型可以提升少样本分类但它并未明确利用CLIP中的跨模态对齐。因此我们提出问题我们能否利用CLIP对比训练所诱导的图像和文本原型之间的自然对齐在少样本场景下获得对真实类图像中心更好的估计少样本图像原型包含与给定分类任务无关的信息。例如图像中的某些细节如背景或实例特定属性如物体颜色对于物体分类并不那么相关。我们在图1中说明基于类标签定义的分类任务图像空间可以以不同方式被利用。我们认为文本原型张成的语义空间提供了信息用于将给定分类任务相关的图像信息与无关部分分离。我们利用CLIP中的跨模态对齐将图像原型分解为两个组件文本对齐的语义子空间用于表示仅类特定的信息以及文本正交子空间用于表示剩余的属性和实例特定细节。我们证明在文本对齐的语义子空间中混合文本和图像原型比朴素混合原型分类器提升了分类性能。然而尽管CLIP进行了对比训练图像和文本空间之间的强几何对齐并非总能实现这取决于下游数据集。使用两个嵌入空间之间的主角度量化跨模态对齐我们证明在分布外数据集如EuroSAT上CLIP确实表现出模态之间较差的对齐。因此为了解释语义对齐不佳的情况我们提出使用线性判别分析LDA分类器来利用图像空间中的方差从而形成图像特定分类器和文本对齐混合原型分类器的组合。我们的贡献总结如下我们从偏差-方差的角度分析了CLIP中图像和文本原型的混合在少样本设置中的应用。我们证明混合作为一种收缩估计器以偏差换取方差降低产生比仅图像原型更低的均方误差。我们利用CLIP的跨模态对齐来识别捕获少样本分类相关图像信息的文本对齐语义子空间。通过将图像原型分解为对齐和正交组件我们在文本对齐子空间中进行原型混合改进了原型估计和分类性能。我们证明当跨模态对齐较弱时仅依赖与文本空间对齐的图像子空间是次优的。为解决此问题我们对图像空间中的协方差进行建模以捕获互补信息。所得到的方法在多个少样本基准上优于现有的免训练方法。2 相关工作视觉-语言模型。VLMs通过大规模对比预训练学习联合图像-文本表示。CLIP在图像-文本对上优化对称对比损失产生支持强大零样本分类的共享嵌入空间。尽管有此对齐目标Liang等人证明图像和文本嵌入占据共享空间中由模态间隙分隔的不同区域。Schrodl等人将此归因于信息不平衡和对象偏差源于标题很少描述完整视觉内容。近期工作尝试关闭或利用这一间隙Eslami和de Melo提出了改进CLIP跨模态对齐的方法而Mistretta等人通过模态反转暴露了模态内错位。最近Yu等人使用文本引导注意力改进CLIP的零样本鲁棒性。在本工作中我们并非试图关闭模态间隙而是利用语义文本嵌入空间将图像空间分解为任务相关和任务无关的组件以改进少样本分类。少样本分类。CLIP的少样本适应可大致分为免训练和基于训练的方法。在免训练方法中Tip-Adapter从少样本图像特征构建键值缓存并在测试时检索它们以增强零样本预测。TIP-X扩展了这一想法通过从类名检索或生成的支持图像填充缓存实现仅名称迁移。CALIP通过无参数注意力机制增强零样本CLIP使用文本引导重新加权视觉特征。GDA提出了零样本文本分类器与基于图像的线性判别分析LDA分类器的集成。虽然这些方法结合了图像和文本特征进行分类Li等人提出了混合模态搜索用于跨模态检索。在此我们提出混合图像原型的任务相关子空间与文本原型。基于训练的提示学习方法通过优化提示token来调整CLIP。MaPLe将此扩展到两个编码器的多模态提示学习。基于适配器的方法调整轻量级模块CLIP-Adapter添加残差特征适配器TaskRes学习文本特征之上的任务特定残差MMA引入多模态适配器CLIP-LoRA对CLIP编码器应用低秩适应。LP优化类乘数以混合图像和文本logits。2SFS提出了结合提示调整与特征级适应的两阶段框架。我们提出的方法完全免训练。然而如表2所示它可以无缝应用于MaPLe和CLIP-LoRA等基于提示或适配器的方法更新的模型之上产生进一步提升。3 通过偏差-方差分析进行CLIP原型混合一种基于CLIP视觉编码器的简单免训练方法是最近类均值NCM分类器它将类原型估计为训练图像特征的样本均值并将测试样本分配给最近的原型。虽然简单有效但NCM性能取决于估计原型的质量。在本节中我们通过偏差-方差分解的视角分析原型估计并引入一种通过控制偏差-方差权衡来改进估计的混合原型估计器。3.1 最近类均值NCM原型估计器设μ i ∗ \mu_{i}^{*}μi∗​为给定类别c cc的真实总体图像类均值μ ^ i \hat{\mu}_{i}μ^​i​为从n nn个样本计算的样本经验均值。经验均值对应于NCM分类器使用的原型我们记为μ ^ n c m ≔ μ ^ i \hat{\mu}_{\mathrm{ncm}} \coloneqq \hat{\mu}_{i}μ^​ncm​:μ^​i​并通过最近原型规则用于分类。众所周知E [ μ ^ i ] μ i ∗ \mathbb{E}[\hat{\mu}_{i}] \mu_{i}^{*}E[μ^​i​]μi∗​Cov ⁡ [ μ ^ i ] Σ i 2 n \operatorname{Cov}[\hat{\mu}_{i}] \frac{\Sigma_{i}^{2}}{n}Cov[μ^​i​]nΣi2​​其中Σ i ∗ \Sigma_{i}^{*}Σi∗​是类的总体协方差。回想一下对于参数θ ∗ \theta^{*}θ∗的通用估计器θ ^ \hat{\theta}θ^均方误差MSE定义为M S E ( θ ^ , θ ∗ ) B i a s 2 ( θ ^ , θ ∗ ) V a r ( θ ^ ) , ( 1 ) \mathrm{MSE}(\hat{\theta},\theta^{*}) \mathrm{Bias}^{2}(\hat{\theta},\theta^{*}) \mathrm{Var}(\hat{\theta}), \quad (1)MSE(θ^,θ∗)Bias2(θ^,θ∗)Var(θ^),(1)样本均值是无偏的B i a s ( μ ^ n c m , μ i ∗ ) E [ μ ^ i ] − μ i ∗ 0. ( 2 ) \mathrm{Bias}(\hat{\mu}_{\mathrm{ncm}},\mu_{i}^{*}) \mathbb{E}[\hat{\mu}_{i}] - \mu_{i}^{*} 0. \quad (2)Bias(μ^​ncm​,μi∗​)E[μ^​i​]−μi∗​0.(2)因此NCM估计器的MSE简化为方差项$$\mathrm{MSE}(\hat{\mu}{\mathrm{ncm}},\mu{i}^{*}) | \mathbb{E}[\hat{\mu}{i}] - \mu{i}{*}|{2} \mathrmOriginal Abstract:Vision-language models (VLMs) like CLIP are trained with the objective of aligning text and image pairs. To improve CLIP-based few-shot image classification, recent works have observed that, along with text embeddings, image embeddings from the training set are an important source of information. In this work we investigate the impact of directly mixing image and text prototypes for few-shot classification and analyze this from a bias-variance perspective. We show that mixing prototypes acts like a shrinkage estimator. Although mixed prototypes improve classification performance, the image prototypes still add some noise in the form of instance-specific background or context information. In order to capture only information from the image space relevant to the given classification task, we propose projecting image prototypes onto the principal directions of the semantic text embedding space to obtain a text-aligned semantic image subspace. These text-aligned image prototypes, when mixed with text embeddings, further improve classification. However, for downstream datasets with poor cross-modal alignment in CLIP, semantic alignment might be suboptimal. We show that the image subspace can still be leveraged by modeling the anisotropy using class covariances. We demonstrate that combining a text-aligned mixed prototype classifier and an image-specific LDA classifier outperforms existing methods across few-shot classification benchmarks.PDF Link:2603.24528v1部分平台可能图片显示异常请以我的博客内容为准

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2451710.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…