HeBA Heterogeneous Bottleneck Adapters for Robust Vision-Language Models
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language ModelsAuthors:Md Jahidul IslamDeep-Dive Summary:HeBA: 用于鲁棒视觉语言模型的异构瓶颈适配器 (Heterogeneous Bottleneck Adapters)摘要将 CLIP 等大规模视觉语言模型VLMs适配到下游任务时通常采用“一刀切”的架构方法即视觉和文本 Token 统一由宽泛的通用适配器处理。我们认为这种同质化忽略了两种模态截然不同的结构特性——图像的空间局部性与文本的语义密度。为此我们提出了HeBAHeterogeneous Bottleneck Adapter这是一个引入了模态特定结构归纳偏差的统一架构框架。HeBA 通过三大架构创新区别于传统设计异构性Heterogeneity通过 2D 深度可分离卷积处理视觉 Token 以保留空间相关性而通过稠密线性投影处理文本 Token 以捕捉语义关系。瓶颈正则化Bottleneck Regularization不同于标准的扩张式适配器HeBA 采用压缩瓶颈D → D / 4 D \rightarrow D / 4D→D/4强制模型学习紧凑、鲁棒的特征并作为结构正则化器。主动梯度初始化Active Gradient Initialization我们挑战了受限的零初始化范式利用 Kaiming 初始化策略确保初始梯度流充足在不损害冻结主干预训练知识的前提下加速收敛。实验表明HeBA 在 11 个少样本基准测试中达到了新的 SOTA。1. 引言视觉语言模型如 CLIP通过在海量图像-文本对上进行对比学习将视觉和语义表示对齐。虽然它们具有强大的零样本泛化能力但在特定领域如卫星图像、医疗扫描应用时仍需要进行适配。在少样本学习Few-Shot Learning设置下微调面临“稳定性-塑性”困境全参数微调计算昂贵且易导致灾难性遗忘。因此研究转向了参数高效微调PEFT如提示学习Prompt Learning和适配器微调Adapter Tuning。目前的适配器如 CLIP-Adapter、Tip-Adapter存在架构同质化问题它们将具有 2D 空间相关性的视觉 Token 和稠密语义序列的文本 Token 均视为统一的一维向量。这种“空间失忆”丢弃了关键的结构线索。图 1基类到新类的泛化表现。HeBA 在 11 个数据集上的新类准确率78.62%和调和平均值81.35%均创下新纪录。最近的 LwEIB 尝试引入深度卷积但其依赖于“反向瓶颈”将特征维度扩大 4 倍这增加了过拟合风险且优化环境脆弱。HeBA 通过以下方式解决这些问题异构归纳偏差视觉流采用 2D 深度可分离卷积瓶颈文本流采用稠密线性瓶颈。结构正则化采用压缩结构D → D / 4 D \rightarrow D / 4D→D/4限制模型容量过滤噪声并学习低秩表示。主动梯度初始化采用 Kaiming 初始化替代零初始化避免早期训练中的梯度消失并结合动态缩放和标签平滑以稳定学习过程。2. 相关工作2.1. 视觉语言模型与适配VLMs如 CLIP的适配已从全微调转向 PEFT以保留零样本鲁棒性。2.2. 提示学习如 CoOp、CoCoOp 和 MaPLe 等方法通过优化文本或多模态 Token 进行语义对齐。PromptSRC 和 LASP-V 等后续工作引入了正则化约束。2.3. 基于适配器及混合方法CLIP-Adapter 插入 MLP 瓶颈Tip-Adapter 使用键值缓存。LwEIB 引入了卷积但由于参数过重需要复杂的启发式优化。HeBA 通过压缩瓶颈D → D / 4 D \rightarrow D / 4D→D/4与其区别开来提供了内在的稳定性。2.4. 少样本学习中的归纳偏差HeBA 明确解耦了偏差视觉流执行 2D 空间局部性文本流执行语义全局性从而提升了效率。图 2HeBA 框架概览。冻结 CLIP 主干注入轻量化、模态特定的适配器。视觉适配器使用3 × 3 3 \times 33×3深度卷积DW-Conv文本适配器使用线性瓶颈并采用主动 Kaiming 初始化。3. 方法论HeBA 强制执行严格的维度压缩和模态特定处理。3.1. 异构瓶颈架构设第l ll层的输入为x l ∈ R N × D \mathbf{x}_{l} \in \mathbb{R}^{N \times D}xl∈RN×D。适配后的输出x l 1 \mathbf{x}_{l 1}xl1通过残差连接计算x l 1 L a y e r N o r m ( x l s ⋅ F H e B A ( x l ) ) ( 1 ) \mathbf{x}_{l 1} \mathrm{LayerNorm}(\mathbf{x}_{l} s \cdot \mathcal{F}_{HeBA}(\mathbf{x}_{l})) \quad (1)xl1LayerNorm(xls⋅FHeBA(xl))(1)其中s ss是动态缩放因子。HeBA 将特征压缩至D ′ D / 4 D D / 4D′D/4。3.1.1. 视觉流空间感知卷积视觉 Token 被重塑为 2D 网格X 2 D ∈ R B × D × N × N \mathbf{X}_{2D} \in \mathbb{R}^{B \times D \times \sqrt{N} \times \sqrt{N}}X2D∈RB×D×N×N。视觉适配器F v i s \mathcal{F}_{vis}Fvis定义为Z d o w n C o n v 1 × 1 ( X 2 D ) ∈ R B × D r × N × N ( 2 ) \mathbf{Z}_{down} \mathrm{Conv}_{1 \times 1}(\mathbf{X}_{2D}) \in \mathbb{R}^{B \times \frac{D}{r} \times \sqrt{N} \times \sqrt{N}} \quad (2)ZdownConv1×1(X2D)∈RB×rD×N×N(2)Z m i d D W − C o n v 3 × 3 ( Z d o w n ) ( 3 ) \mathbf{Z}_{mid} \mathrm{DW - Conv}_{3 \times 3}(\mathbf{Z}_{down}) \quad (3)ZmidDW−Conv3×3(Zdown)(3)F v i s ( x ) F l a t t e n ( C o n v 1 × 1 ( σ ( Z m i d ) ) ) ( 4 ) \mathcal{F}_{vis}(\mathbf{x}) \mathrm{Flatten}(\mathrm{Conv}_{1 \times 1}(\sigma (\mathbf{Z}_{mid}))) \quad (4)Fvis(x)Flatten(Conv1×1(σ(Zmid)))(4)其中D W − C o n v 3 × 3 \mathrm{DW - Conv}_{3 \times 3}DW−Conv3×3聚合局部空间上下文σ \sigmaσ为 GELU 激活函数。图 3HeBA 中的模型级归纳偏差集成。文本适配器使用线性瓶颈视觉适配器使用深度卷积上采样层使用 Kaiming 初始化。3.1.2. 文本流语义保持投影由于空间局部性对文本无关文本适配器F t e x t \mathcal{F}_{text}Ftext直接作用于 Token 序列F t e x t ( x ) W u p ⋅ σ ( W d o w n ⋅ x ) ( 5 ) \mathcal{F}_{t e x t}(\mathbf{x}) \mathbf{W}_{u p}\cdot \sigma \left(\mathbf{W}_{d o w n}\cdot \mathbf{x}\right) \quad (5)Ftext(x)Wup⋅σ(Wdown⋅x)(5)使用稠密线性拓扑来保持全局语义完整性。3.2. 主动梯度初始化范式与 Tip-Adapter 和 MaPLe 使用零初始化W u p 0 \mathbf{W}_{up} 0Wup0不同HeBA 采用主动 Kaiming 初始化策略W u p ∼ N ( 0 , 2 n i n ) , b u p 0 ( 6 ) \mathbf{W}_{u p}\sim \mathcal{N}(0, \frac{2}{n_{i n}}), \quad \mathbf{b}_{u p} 0 \quad (6)Wup∼N(0,nin2),bup0(6)这确保了从第一轮迭代起就有稳健的梯度流加速了对下游分布的适配同时由于 CLIP 主干被冻结预训练知识得到了本质上的保护。Original Abstract:Adapting large-scale Vision-Language Models (VLMs) like CLIP to downstream tasks often suffers from a “one-size-fits-all” architectural approach, where visual and textual tokens are processed uniformly by wide, generic adapters. We argue that this homogeneity ignores the distinct structural nature of the modalities – spatial locality in images versus semantic density in text. To address this, we propose HeBA (Heterogeneous Bottleneck Adapter), a unified architectural framework that introduces modality-specific structural inductive biases. HeBA departs from conventional designs through three key architectural innovations: (1) Heterogeneity: It processes visual tokens via 2D depthwise-separable convolutions to preserve spatial correlations, while distinctively processing text tokens via dense linear projections to capture semantic relationships; (2) Bottleneck Regularization: Unlike standard expanding adapters, HeBA employs a compression bottleneck (D - D/4) that explicitly forces the model to learn compact, robust features and acts as a structural regularizer; and (3) Active Gradient Initialization: We challenge the restrictive zero-initialization paradigm, utilizing a Kaiming initialization strategy that ensures sufficient initial gradient flow to accelerate convergence without compromising the frozen backbone’s pre-trained knowledge. Extensive experiments demonstrate that HeBA’s architecturally specialized design achieves superior stability and accuracy, establishing a new state-of-the-art on 11 few-shot benchmarks. Code is available at https://github.com/Jahid12012021/VLM-HeBA.PDF Link:2603.16653v1部分平台可能图片显示异常请以我的博客内容为准
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2423434.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!