ADaFuSE Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image Retrieval

news2026/3/25 22:10:59
ADaFuSE: Adaptive Diffusion-generated Image and Text Fusion for Interactive Text-to-Image RetrievalAuthors:Zhuocheng Zhang, Xingwu Zhang, Kangheng Liang, Guanxuan Li, Richard Mccreadie, Zijun LongDeep-Dive Summary:ADaFuSE: 用于交互式文本到图像检索的自适应扩散生成图像与文本融合摘要近期交互式文本到图像检索I-TIR的进展利用扩散模型来弥合文本信息需求与待检索图像之间的模态差距从而提升了检索效果。然而现有框架通过简单的嵌入加法来融合用户反馈的多模态视图。在本工作中我们表明这种静态且不加区分的融合方式会无差别地引入扩散模型产生的生成噪声导致高达55.62 % 55.62\%55.62%的样本性能下降。我们进一步提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合这是一种轻量级融合模型旨在为扩散增强的 I-TIR 对齐和校准多模态视图无需修改主干编码器即可插入现有框架。具体而言我们引入了一种双分支融合机制采用自适应门控分支动态平衡模态可靠性同时采用语义感知混合专家分支捕捉细粒度的跨模态细微差别。通过在四个标准 I-TIR 基准上的全面评估ADaFuSE 达到了最先进的性能在仅增加5.29 % 5.29\%5.29%参数的情况下Hits10 比 DAR 提升高达3.49 % 3.49\%3.49%同时对噪声和更长交互查询表现出更强的鲁棒性。这些结果表明生成增强与原则性融合相结合为交互式检索提供了一种简单、可泛化的替代微调方案。关键词扩散增强交互式文本到图像检索多模态查询融合1 引言交互式文本到图像检索I-TIR允许用户通过迭代整合以自然语言对话形式表达的用户反馈在语料库中找到目标图像 [12, 16, 17]。最近扩散增强 I-TIR 作为一种引人注目的范式出现它利用扩散模型 [14, 29] 生成以对话上下文为条件的合成图像作为视觉代理用于丰富文本查询 [23] 或作为独立的图像查询 [33]。现有框架如 DAR [23]通过静态加法融合策略整合对话文本和相应的生成图像以固定权重结合它们的嵌入。然而我们认为这种静态加法融合存在两个关键局限性。首先像 DAR 这样依赖固定权重的方法忽略了每个模态的有用性在不同实例间的变化。实际上对视觉和文本信息的依赖应该是动态的取决于生成图像对当前意图的捕捉程度 [3, 35, 1]。其次静态加法融合将所有生成图像视为同等有价值忽略了它们的实际质量。由于扩散模型本质上是随机的生成图像与用户意图的一致性在不同样本间波动。静态加法无差别地融合这些生成图像不可避免地引入噪声。为解决上述局限性我们提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合这是一种轻量级融合模型旨在为扩散增强 I-TIR 动态校准多模态表示无需修改主干编码器即可插入现有 I-TIR 流程。在结构上该模型包含两个协调分支自适应门控 [27] 分支利用跨模态交互动态调节文本特征和相应生成图像特征的融合权重以及语义感知混合专家分支利用多样化的语义感知专家构建补偿特征捕捉细粒度的跨模态细微差别。通过整合门控分支的调节特征与语义感知分支的补偿特征ADaFuSE 形成了比静态加法融合更鲁棒且与意图对齐的查询表示。我们的主要贡献包括(i) 批判性分析现有扩散增强 I-TIR 框架揭示无差别静态加法融合的局限性(ii) 提出 ADaFuSE一种旨在实现输入文本与扩散生成图像之间鲁棒融合表示的轻量级融合模型(iii) 在四个标准 I-TIR 基准上展示最先进的性能Hits10 比最强扩散增强基线DAR[23] 提升高达3.49 % 3.49\%3.49%并展示对查询复杂度和交互长度增加的鲁棒性。2 相关工作交互式文本到图像检索与传统检索系统仅依赖单一短查询不同 [15, 28]交互式文本到图像检索I-TIR基于多轮用户反馈迭代优化搜索查询 [17, 38]。在大语言模型 [6, 11, 21] 和视觉语言模型 [24, 28, 18] 进步的推动下这种交互式方法已用于提高从通用图像搜索 [16, 33, 37] 到人物检索等专门任务 [4, 25] 的广泛用例的搜索效果。扩散增强 I-TIR 方法是一项最新创新它引入扩散生成图像来弥合文本查询/对话与待检索图像之间的语义差距。具体而言DAR [23] 以对话上下文为条件合成这些图像并通过静态加法融合策略将其与文本查询整合即使在零样本设置下也能实现最先进的性能。多模态查询视图的融合据我们所知先前工作尚未研究如何更好地融合扩散增强 I-TIR 的多模态查询视图。最接近的相关领域是组合图像检索CIR[31, 32, 22, 2]其中多模态查询通常是参考图像与修改文本配对用于检索目标图像 [30, 34]。该任务已在从时尚电商到开放域场景等领域得到广泛探索由 FashionIQ [32]、CIRR [22] 和 CIRCO [5] 等大规模数据集推动。然而扩散增强 I-TIR 与 CIR 在输入性质上有所不同。在标准 CIR 中文本通常作为应用于可靠参考图像的修改指令。相反扩散增强检索采用从可能较长的对话上下文生成的合成图像 [23, 33]。在此设置中理论上两种模态应传达相同的语义意图但实际上生成图像会引入实例依赖的噪声 [36]。这促使开发专门针对扩散增强 I-TIR 的融合机制。图 1VisDial [9] 验证集上扩散增强退化率左和平均排名下降右的分析。越低越好。3 提出的方法ADaFuSE3.1 加法融合的局限性如 [36] 所讨论扩散增强交互式文本到图像检索I-TIR方法产生的生成图像经常在语义上偏离用户的检索意图引入可能与原始对话上下文冲突的噪声。最先进的方法 DAR [23] 使用静态加权加法融合策略将这些扩散生成图像直接与查询表示结合。尽管 DAR 已被证明在此局限性下仍然有效但我们认为引入的噪声正在降低某些查询的性能。为量化这一风险我们分析了引入扩散生成图像损害而非改善检索性能的查询比例称为退化率以及相关图像的平均排名下降。如图 1 所示红色实线显示 DAR 从第 2 轮开始退化率超过50 % 50\%50%红色虚线显示退化查询的平均排名下降约为 7500。这表明扩散噪声是一个主要问题需要更好的文本与扩散生成图像证据融合方式。3.2 扩散生成图像与文本的自适应融合我们假设限制扩散生成噪声泄漏到排序过程的有效手段是在融合文本和扩散产生证据时更具选择性。为此我们提出了 ADaFuSE具有语义感知专家的自适应扩散-文本融合如图 2 所示这是一种轻量级模型作为文本和图像模态之间的智能桥梁动态校准每个查询应使用各模态的多少信号。查询编码与投影考虑数据集中第i ii个样本在第n nn轮对话。我们将文本查询记为T n , i T_{n,i}Tn,i​相应的扩散生成图像记为I n , i I_{n,i}In,i​真实目标图像记为I i ∗ I_i^*Ii∗​。令Φ T ( ⋅ ) \Phi_T(\cdot)ΦT​(⋅)和Φ I ( ⋅ ) \Phi_I(\cdot)ΦI​(⋅)分别表示文本和图像编码器。通过将输入映射到共享的d dd维嵌入空间获得初始嵌入z n , i T Φ T ( T n , i ) , z n , i D Φ I ( I n , i ) , z i ∗ Φ I ( I i ∗ ) ( 1 ) z_{n,i}^T \Phi_T(T_{n,i}), \quad z_{n,i}^D \Phi_I(I_{n,i}), \quad z_i^* \Phi_I(I_i^*) \quad (1)zn,iT​ΦT​(Tn,i​),zn,iD​ΦI​(In,i​),zi∗​ΦI​(Ii∗​)(1)其中z n , i T , z n , i D , z i ∗ ∈ R d z_{n,i}^T, z_{n,i}^D, z_i^* \in \mathbb{R}^dzn,iT​,zn,iD​,zi∗​∈Rd。尽管预训练编码器能有效全局对齐模态但其预训练目标优先考虑不变性这可能抑制包含补充文本有价值语义信息的细粒度视觉细节 [7, 8]。在此压缩空间内直接融合限制了这些视觉线索的有效利用。为恢复这一损失的能力ADaFuSE 首先采用两个投影块见图 2将原始文本和图像嵌入非线性投影到更高维度的任务特定潜在空间h n , i T δ ( P T ( z n , i T ) ) , h n , i D δ ( P D ( z n , i D ) ) ( 2 ) \mathbf{h}_{n,i}^T \delta(\mathcal{P}_T(z_{n,i}^T)), \quad \mathbf{h}_{n,i}^D \delta(\mathcal{P}_D(z_{n,i}^D)) \quad (2)hn,iT​δ(PT​(zn,iT​)),hn,iD​δ(PD​(zn,iD​))(2)其中P { T , D } ( ⋅ ) : R d → R d ′ \mathcal{P}_{\{T,D\}}(\cdot): \mathbb{R}^d \to \mathbb{R}^{d}P{T,D}​(⋅):Rd→Rd′实例化为独立的投影头以捕捉模态特定特征δ ( ⋅ ) \delta(\cdot)δ(⋅)为 GELU 激活函数。这种非线性维度扩展用于恢复特征的判别能力为后续自适应门控和专家路由提供更富表达力的嵌入空间。![](images/d4322c88222d7d752d81c78f34ea1b2100c5aabOriginal Abstract:Recent advances in interactive text-to-image retrieval (I-TIR) use diffusion models to bridge the modality gap between the textual information need and the images to be searched, resulting in increased effectiveness. However, existing frameworks fuse multi-modal views of user feedback by simple embedding addition. In this work, we show that this static and undifferentiated fusion indiscriminately incorporates generative noise produced by the diffusion model, leading to performance degradation for up to 55.62% samples. We further propose ADaFuSE (Adaptive Diffusion-Text Fusion with Semantic-aware Experts), a lightweight fusion model designed to align and calibrate multi-modal views for diffusion-augmented I-TIR, which can be plugged into existing frameworks without modifying the backbone encoder. Specifically, we introduce a dual-branch fusion mechanism that employs an adaptive gating branch to dynamically balance modality reliability, alongside a semantic-aware mixture-of-experts branch to capture fine-grained cross-modal nuances. Via thorough evaluation over four standard I-TIR benchmarks, ADaFuSE achieves state-of-the-art performance, surpassing DAR by up to 3.49% in Hits10 with only a 5.29% parameter increase, while exhibiting stronger robustness to noisy and longer interactive queries. These results show that generative augmentation coupled with principled fusion provides a simple, generalizable alternative to fine-tuning for interactive retrieval.PDF Link:2603.21886v1部分平台可能图片显示异常请以我的博客内容为准

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2448848.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…