ADaFuSE Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval
ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image RetrievalAuthors:Zhuocheng Zhang, Xingwu Zhang, Kangheng Liang, Guanxuan Li, Richard Mccreadie, Zijun LongDeep-Dive Summary:ADaFuSE: 用于交互式文本到图像检索的自适应扩散生成图像与文本融合摘要近期交互式文本到图像检索I-TIR的进展利用扩散模型来弥合文本信息需求与待检索图像之间的模态差距从而提升了检索效果。然而现有框架通过简单的嵌入加法来融合用户反馈的多模态视图。在本工作中我们表明这种静态且不加区分的融合方式会无差别地引入扩散模型产生的生成噪声导致高达55.62 % 55.62\%55.62%的样本性能下降。我们进一步提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合这是一种轻量级融合模型旨在为扩散增强的 I-TIR 对齐和校准多模态视图无需修改主干编码器即可插入现有框架。具体而言我们引入了一种双分支融合机制采用自适应门控分支动态平衡模态可靠性同时采用语义感知混合专家分支捕捉细粒度的跨模态细微差别。通过在四个标准 I-TIR 基准上的全面评估ADaFuSE 达到了最先进的性能在仅增加5.29 % 5.29\%5.29%参数的情况下Hits10 比 DAR 提升高达3.49 % 3.49\%3.49%同时对噪声和更长交互查询表现出更强的鲁棒性。这些结果表明生成增强与原则性融合相结合为交互式检索提供了一种简单、可泛化的替代微调方案。关键词扩散增强交互式文本到图像检索多模态查询融合1 引言交互式文本到图像检索I-TIR允许用户通过迭代整合以自然语言对话形式表达的用户反馈在语料库中找到目标图像 [12, 16, 17]。最近扩散增强 I-TIR 作为一种引人注目的范式出现它利用扩散模型 [14, 29] 生成以对话上下文为条件的合成图像作为视觉代理用于丰富文本查询 [23] 或作为独立的图像查询 [33]。现有框架如 DAR [23]通过静态加法融合策略整合对话文本和相应的生成图像以固定权重结合它们的嵌入。然而我们认为这种静态加法融合存在两个关键局限性。首先像 DAR 这样依赖固定权重的方法忽略了每个模态的有用性在不同实例间的变化。实际上对视觉和文本信息的依赖应该是动态的取决于生成图像对当前意图的捕捉程度 [3, 35, 1]。其次静态加法融合将所有生成图像视为同等有价值忽略了它们的实际质量。由于扩散模型本质上是随机的生成图像与用户意图的一致性在不同样本间波动。静态加法无差别地融合这些生成图像不可避免地引入噪声。为解决上述局限性我们提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合这是一种轻量级融合模型旨在为扩散增强 I-TIR 动态校准多模态表示无需修改主干编码器即可插入现有 I-TIR 流程。在结构上该模型包含两个协调分支自适应门控 [27] 分支利用跨模态交互动态调节文本特征和相应生成图像特征的融合权重以及语义感知混合专家分支利用多样化的语义感知专家构建补偿特征捕捉细粒度的跨模态细微差别。通过整合门控分支的调节特征与语义感知分支的补偿特征ADaFuSE 形成了比静态加法融合更鲁棒且与意图对齐的查询表示。我们的主要贡献包括(i) 批判性分析现有扩散增强 I-TIR 框架揭示无差别静态加法融合的局限性(ii) 提出 ADaFuSE一种旨在实现输入文本与扩散生成图像之间鲁棒融合表示的轻量级融合模型(iii) 在四个标准 I-TIR 基准上展示最先进的性能Hits10 比最强扩散增强基线DAR[23] 提升高达3.49 % 3.49\%3.49%并展示对查询复杂度和交互长度增加的鲁棒性。2 相关工作交互式文本到图像检索与传统检索系统仅依赖单一短查询不同 [15, 28]交互式文本到图像检索I-TIR基于多轮用户反馈迭代优化搜索查询 [17, 38]。在大语言模型 [6, 11, 21] 和视觉语言模型 [24, 28, 18] 进步的推动下这种交互式方法已用于提高从通用图像搜索 [16, 33, 37] 到人物检索等专门任务 [4, 25] 的广泛用例的搜索效果。扩散增强 I-TIR 方法是一项最新创新它引入扩散生成图像来弥合文本查询/对话与待检索图像之间的语义差距。具体而言DAR [23] 以对话上下文为条件合成这些图像并通过静态加法融合策略将其与文本查询整合即使在零样本设置下也能实现最先进的性能。多模态查询视图的融合据我们所知先前工作尚未研究如何更好地融合扩散增强 I-TIR 的多模态查询视图。最接近的相关领域是组合图像检索CIR[31, 32, 22, 2]其中多模态查询通常是参考图像与修改文本配对用于检索目标图像 [30, 34]。该任务已在从时尚电商到开放域场景等领域得到广泛探索由 FashionIQ [32]、CIRR [22] 和 CIRCO [5] 等大规模数据集推动。然而扩散增强 I-TIR 与 CIR 在输入性质上有所不同。在标准 CIR 中文本通常作为应用于可靠参考图像的修改指令。相反扩散增强检索采用从可能较长的对话上下文生成的合成图像 [23, 33]。在此设置中理论上两种模态应传达相同的语义意图但实际上生成图像会引入实例依赖的噪声 [36]。这促使开发专门针对扩散增强 I-TIR 的融合机制。图 1VisDial [9] 验证集上扩散增强退化率左和平均排名下降右的分析。越低越好。3 提出的方法ADaFuSE3.1 加法融合的局限性如 [36] 所讨论扩散增强交互式文本到图像检索I-TIR方法产生的生成图像经常在语义上偏离用户的检索意图引入可能与原始对话上下文冲突的噪声。最先进的方法 DAR [23] 使用静态加权加法融合策略将这些扩散生成图像直接与查询表示结合。尽管 DAR 已被证明在此局限性下仍然有效但我们认为引入的噪声正在降低某些查询的性能。为量化这一风险我们分析了引入扩散生成图像损害而非改善检索性能的查询比例称为退化率以及相关图像的平均排名下降。如图 1 所示红色实线显示 DAR 从第 2 轮开始退化率超过50 % 50\%50%红色虚线显示退化查询的平均排名下降约为 7500。这表明扩散噪声是一个主要问题需要更好的文本与扩散生成图像证据融合方式。3.2 扩散生成图像与文本的自适应融合我们假设限制扩散生成噪声泄漏到排序过程的有效手段是在融合文本和扩散产生证据时更具选择性。为此我们提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合如图 2 所示这是一种轻量级模型作为文本和图像模态之间的智能桥梁动态校准每个查询应使用各模态的多少信号。查询编码与投影考虑数据集中第i ii个样本在第n nn轮对话。我们将文本查询记为T n , i T_{n,i}Tn,i相应的扩散生成图像记为I n , i I_{n,i}In,i真实目标图像记为I i ∗ I_i^*Ii∗。令Φ T ( ⋅ ) \Phi_T(\cdot)ΦT(⋅)和Φ I ( ⋅ ) \Phi_I(\cdot)ΦI(⋅)分别表示文本和图像编码器。通过将输入映射到共享的d dd维嵌入空间获得初始嵌入z n , i T Φ T ( T n , i ) , z n , i D Φ I ( I n , i ) , z i ∗ Φ I ( I i ∗ ) ( 1 ) z_{n,i}^T \Phi_T(T_{n,i}), \quad z_{n,i}^D \Phi_I(I_{n,i}), \quad z_i^* \Phi_I(I_i^*) \quad (1)zn,iTΦT(Tn,i),zn,iDΦI(In,i),zi∗ΦI(Ii∗)(1)其中z n , i T , z n , i D , z i ∗ ∈ R d z_{n,i}^T, z_{n,i}^D, z_i^* \in \mathbb{R}^dzn,iT,zn,iD,zi∗∈Rd。尽管预训练编码器能有效全局对齐模态但其预训练目标优先考虑不变性这可能抑制包含补充文本有价值语义信息的细粒度视觉细节 [7, 8]。在此压缩空间内直接融合限制了这些视觉线索的有效利用。为恢复这一损失的能力ADaFuSE 首先采用两个投影块见图 2将原始文本和图像嵌入非线性投影到更高维度的任务特定潜在空间h n , i T δ ( P T ( z n , i T ) ) , h n , i D δ ( P D ( z n , i D ) ) ( 2 ) \mathbf{h}_{n,i}^T \delta(\mathcal{P}_T(z_{n,i}^T)), \quad \mathbf{h}_{n,i}^D \delta(\mathcal{P}_D(z_{n,i}^D)) \quad (2)hn,iTδ(PT(zn,iT)),hn,iDδ(PD(zn,iD))(2)其中P { T , D } ( ⋅ ) : R d → R d ′ \mathcal{P}_{\{T,D\}}(\cdot): \mathbb{R}^d \to \mathbb{R}^{d}P{T,D}(⋅):Rd→Rd′实例化为独立的投影头以捕捉模态特定特征δ ( ⋅ ) \delta(\cdot)δ(⋅)为 GELU 激活函数。这种非线性维度扩展用于恢复特征的判别能力为后续自适应门控和专家路由提供更富表达力的嵌入空间。 use diffusion models to bridge the modality gap between the textual information need and the images to be searched, resulting in increased effectiveness. However, existing frameworks fuse multi-modal views of user feedback by simple embedding addition. In this work, we show that this static and undifferentiated fusion indiscriminately incorporates generative noise produced by the diffusion model, leading to performance degradation for up to 55.62% samples. We further propose ADaFuSE (Adaptive Diffusion-Text Fusion with Semantic-aware Experts), a lightweight fusion model designed to align and calibrate multi-modal views for diffusion-augmented I-TIR, which can be plugged into existing frameworks without modifying the backbone encoder. Specifically, we introduce a dual-branch fusion mechanism that employs an adaptive gating branch to dynamically balance modality reliability, alongside a semantic-aware mixture-of-experts branch to capture fine-grained cross-modal nuances. Via thorough evaluation over four standard I-TIR benchmarks, ADaFuSE achieves state-of-the-art performance, surpassing DAR by up to 3.49% in Hits10 with only a 5.29% parameter increase, while exhibiting stronger robustness to noisy and longer interactive queries. These results show that generative augmentation coupled with principled fusion provides a simple, generalizable alternative to fine-tuning for interactive retrieval.PDF Link:2603.21886v1部分平台可能图片显示异常请以我的博客内容为准
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2448848.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!