Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot Classification

news2026/3/26 17:51:53

Cross-Modal Prototype Alignment and Mixing for Training-Free Few-Shot ClassificationAuthors:Dipam Goswami, Simone Magistri, Gido M. van de Ven, Bartłomiej Twardowski, Andrew D. Bagdanov, Tinne Tuytelaars, Joost van de WeijerDeep-Dive Summary:跨模态原型对齐与混合用于免训练小样本分类摘要像CLIP这样的视觉-语言模型VLMs以对齐文本和图像对为目标进行训练。为了改进基于CLIP的小样本图像分类近期研究观察到除了文本嵌入外训练集中的图像嵌入也是重要的信息来源。本文研究了直接混合图像和文本原型对小样本分类的影响并从偏差-方差的角度进行分析。我们证明了混合原型类似于收缩估计器。虽然混合原型提升了分类性能但图像原型仍会引入噪声表现为实例特定的背景或上下文信息。为了仅捕获与给定分类任务相关的图像空间信息我们提出将图像原型投影到语义文本嵌入空间的主方向上以获得文本对齐的语义图像子空间。当这些文本对齐的图像原型与文本嵌入混合时分类性能进一步提升。然而对于CLIP跨模态对齐较差的下游数据集语义对齐可能并非最优。我们证明通过使用类协方差建模各向异性图像子空间仍然可以被利用。我们展示了结合文本对齐混合原型分类器和图像特定LDA分类器的方法在多个小样本分类基准上优于现有方法。关键词视觉-语言模型 · 跨模态对齐 · 混合原型1 引言像CLIP这样的视觉-语言模型VLMs使用对称对比损失进行训练该损失最大化图像与其对应文本之间的相似度同时将其推离负样本文本反之亦然。这产生了一个共享嵌入空间其中语义对应的图像和文本表示在几何上对齐。因此CLIP实现了强大的零样本性能其中分类通过测试图像与文本编码器编码的文本提示文本原型之间的余弦相似度来执行。然而由于信息不对称——文本提示很少描述整幅图像——文本和图像嵌入最终未能完全对齐而是占据了共享CLIP嵌入空间中由模态间隙分隔的区域。图1给定分类问题图像潜在空间应以不同方式利用。文本原型定义的语义空间定义了相关子空间。我们提出文本对齐的图像特征语义投影仅使用相关子空间进行分类。通过提出的任务特定语义投影P1和P2获得的注意力图表示任务相关区域。几项研究探索了仅有少量训练图像可用的少样本设置并证明使用图像嵌入结合文本嵌入可以提升分类性能。这些方法包括以不同形式结合图像和文本嵌入的免训练方法以及通过学习提示或适配器来调整VLM的方法。尽管现有工作已经利用了混合的图像和文本表示但缺乏一种有原则的、免训练的方法来处理噪声图像原型少量样本图像特征的均值。在本文中我们分析了少样本设置中基于混合原型的分类并证明混合原型是一种收缩估计器通过控制偏差-方差权衡来改进原型估计。虽然朴素地混合原型可以提升少样本分类但它并未明确利用CLIP中的跨模态对齐。因此我们提出问题我们能否利用CLIP对比训练所诱导的图像和文本原型之间的自然对齐在少样本场景下获得对真实类图像中心更好的估计少样本图像原型包含与给定分类任务无关的信息。例如图像中的某些细节如背景或实例特定属性如物体颜色对于物体分类并不那么相关。我们在图1中说明基于类标签定义的分类任务图像空间可以以不同方式被利用。我们认为文本原型张成的语义空间提供了信息用于将给定分类任务相关的图像信息与无关部分分离。我们利用CLIP中的跨模态对齐将图像原型分解为两个组件文本对齐的语义子空间用于表示仅类特定的信息以及文本正交子空间用于表示剩余的属性和实例特定细节。我们证明在文本对齐的语义子空间中混合文本和图像原型比朴素混合原型分类器提升了分类性能。然而尽管CLIP进行了对比训练图像和文本空间之间的强几何对齐并非总能实现这取决于下游数据集。使用两个嵌入空间之间的主角度量化跨模态对齐我们证明在分布外数据集如EuroSAT上CLIP确实表现出模态之间较差的对齐。因此为了解释语义对齐不佳的情况我们提出使用线性判别分析LDA分类器来利用图像空间中的方差从而形成图像特定分类器和文本对齐混合原型分类器的组合。我们的贡献总结如下我们从偏差-方差的角度分析了CLIP中图像和文本原型的混合在少样本设置中的应用。我们证明混合作为一种收缩估计器以偏差换取方差降低产生比仅图像原型更低的均方误差。我们利用CLIP的跨模态对齐来识别捕获少样本分类相关图像信息的文本对齐语义子空间。通过将图像原型分解为对齐和正交组件我们在文本对齐子空间中进行原型混合改进了原型估计和分类性能。我们证明当跨模态对齐较弱时仅依赖与文本空间对齐的图像子空间是次优的。为解决此问题我们对图像空间中的协方差进行建模以捕获互补信息。所得到的方法在多个少样本基准上优于现有的免训练方法。2 相关工作视觉-语言模型。VLMs通过大规模对比预训练学习联合图像-文本表示。CLIP在图像-文本对上优化对称对比损失产生支持强大零样本分类的共享嵌入空间。尽管有此对齐目标Liang等人证明图像和文本嵌入占据共享空间中由模态间隙分隔的不同区域。Schrodl等人将此归因于信息不平衡和对象偏差源于标题很少描述完整视觉内容。近期工作尝试关闭或利用这一间隙Eslami和de Melo提出了改进CLIP跨模态对齐的方法而Mistretta等人通过模态反转暴露了模态内错位。最近Yu等人使用文本引导注意力改进CLIP的零样本鲁棒性。在本工作中我们并非试图关闭模态间隙而是利用语义文本嵌入空间将图像空间分解为任务相关和任务无关的组件以改进少样本分类。少样本分类。CLIP的少样本适应可大致分为免训练和基于训练的方法。在免训练方法中Tip-Adapter从少样本图像特征构建键值缓存并在测试时检索它们以增强零样本预测。TIP-X扩展了这一想法通过从类名检索或生成的支持图像填充缓存实现仅名称迁移。CALIP通过无参数注意力机制增强零样本CLIP使用文本引导重新加权视觉特征。GDA提出了零样本文本分类器与基于图像的线性判别分析LDA分类器的集成。虽然这些方法结合了图像和文本特征进行分类Li等人提出了混合模态搜索用于跨模态检索。在此我们提出混合图像原型的任务相关子空间与文本原型。基于训练的提示学习方法通过优化提示token来调整CLIP。MaPLe将此扩展到两个编码器的多模态提示学习。基于适配器的方法调整轻量级模块CLIP-Adapter添加残差特征适配器TaskRes学习文本特征之上的任务特定残差MMA引入多模态适配器CLIP-LoRA对CLIP编码器应用低秩适应。LP优化类乘数以混合图像和文本logits。2SFS提出了结合提示调整与特征级适应的两阶段框架。我们提出的方法完全免训练。然而如表2所示它可以无缝应用于MaPLe和CLIP-LoRA等基于提示或适配器的方法更新的模型之上产生进一步提升。3 通过偏差-方差分析进行CLIP原型混合一种基于CLIP视觉编码器的简单免训练方法是最近类均值NCM分类器它将类原型估计为训练图像特征的样本均值并将测试样本分配给最近的原型。虽然简单有效但NCM性能取决于估计原型的质量。在本节中我们通过偏差-方差分解的视角分析原型估计并引入一种通过控制偏差-方差权衡来改进估计的混合原型估计器。3.1 最近类均值NCM原型估计器设μ i ∗ \mu_{i}^{*}μi∗为给定类别c cc的真实总体图像类均值μ ^ i \hat{\mu}_{i}μ^i为从n nn个样本计算的样本经验均值。经验均值对应于NCM分类器使用的原型我们记为μ ^ n c m ≔ μ ^ i \hat{\mu}_{\mathrm{ncm}} \coloneqq \hat{\mu}_{i}μ^ncm:μ^i并通过最近原型规则用于分类。众所周知E [ μ ^ i ] μ i ∗ \mathbb{E}[\hat{\mu}_{i}] \mu_{i}^{*}E[μ^i]μi∗Cov ⁡ [ μ ^ i ] Σ i 2 n \operatorname{Cov}[\hat{\mu}_{i}] \frac{\Sigma_{i}^{2}}{n}Cov[μ^i]nΣi2其中Σ i ∗ \Sigma_{i}^{*}Σi∗是类的总体协方差。回想一下对于参数θ ∗ \theta^{*}θ∗的通用估计器θ ^ \hat{\theta}θ^均方误差MSE定义为M S E ( θ ^ , θ ∗ ) B i a s 2 ( θ ^ , θ ∗ ) V a r ( θ ^ ) , ( 1 ) \mathrm{MSE}(\hat{\theta},\theta^{*}) \mathrm{Bias}^{2}(\hat{\theta},\theta^{*}) \mathrm{Var}(\hat{\theta}), \quad (1)MSE(θ^,θ∗)Bias2(θ^,θ∗)Var(θ^),(1)样本均值是无偏的B i a s ( μ ^ n c m , μ i ∗ ) E [ μ ^ i ] − μ i ∗ 0. ( 2 ) \mathrm{Bias}(\hat{\mu}_{\mathrm{ncm}},\mu_{i}^{*}) \mathbb{E}[\hat{\mu}_{i}] - \mu_{i}^{*} 0. \quad (2)Bias(μ^ncm,μi∗)E[μ^i]−μi∗0.(2)因此NCM估计器的MSE简化为方差项$$\mathrm{MSE}(\hat{\mu}{\mathrm{ncm}},\mu{i}^{*}) | \mathbb{E}[\hat{\mu}{i}] - \mu{i}{*}|{2} \mathrmOriginal Abstract:Vision-language models (VLMs) like CLIP are trained with the objective of aligning text and image pairs. To improve CLIP-based few-shot image classification, recent works have observed that, along with text embeddings, image embeddings from the training set are an important source of information. In this work we investigate the impact of directly mixing image and text prototypes for few-shot classification and analyze this from a bias-variance perspective. We show that mixing prototypes acts like a shrinkage estimator. Although mixed prototypes improve classification performance, the image prototypes still add some noise in the form of instance-specific background or context information. In order to capture only information from the image space relevant to the given classification task, we propose projecting image prototypes onto the principal directions of the semantic text embedding space to obtain a text-aligned semantic image subspace. These text-aligned image prototypes, when mixed with text embeddings, further improve classification. However, for downstream datasets with poor cross-modal alignment in CLIP, semantic alignment might be suboptimal. We show that the image subspace can still be leveraged by modeling the anisotropy using class covariances. We demonstrate that combining a text-aligned mixed prototype classifier and an image-specific LDA classifier outperforms existing methods across few-shot classification benchmarks.PDF Link:2603.24528v1部分平台可能图片显示异常请以我的博客内容为准

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2451710.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！