【多模态】IMAGEBIND论文阅读

news2025/5/16 1:41:34

every blog every motto: Although the world is full of suffering, it is full also of the overcoming of it

0. 前言

IMAGEBIND 多模态论文梗概

IMAGEBIND是一种夸模态的神经网络,以图片为中心,联合六中模态的网络(图片、文字、音频、深度图、热力图、惯性测量单元)

1. 正文

1.1 梗概

一张照片可以将许多经历联系在一起——一张海滩的照片可以让我们想起海浪的声音、沙子的质地、微风,甚至激发一首诗的灵感。图像的这种“绑定”属性为学习视觉特征提供了许多监督来源,通过将它们与任何与图像相关的感官体验相结合。

之前的工作主要集中在image-text,或videoaudio and captions等少数几种模态。

而IMAGEBIND将每种模态和图片对齐。

img

理想情况是同一张图片找到和其对齐的其他模态,而这在实际中是不可获得的。

其他5种模态和图片对齐:
20250508135121

6中模型主要都是VIT类。

1.2 损失函数

20250508135903

上式为I和M的损失,I表示image,M表示其他模态的数据。

q = f ( I ) , k = g ( M ) q = f(I), k = g(M) q=f(I),k=g(M) ,其中 f , g f,g f,g表示深度网络。

τ \tau τ 温度标量,用于控制softmax的平滑。
j j j 表示不相关的pairs。

在实际中, L o s s = L I , M + L M , I Loss = L_{I,M} + L_{M,I} Loss=LI,M+LM,I

1.3 涌现的对齐能力

在IMAGEBIND中,对于未出现的pairs涌现了对齐能力。如,只训练了(I,M1),和(I,M2)出现了(M1,M2)之前的对齐。

zero-shot: 在CLIP中,使用的image-text训练,使用text-prompts去证明zero-shot能力,
emergent zero-shot(涌现的零样本学习能力): 而在IMAGEBIND中,使用image-text和image-audio训练,IMAGEBIND可以用text prompts对audio进行分类,

1.4 应用

1.4.1 多模态嵌入空间算法

图片+音频–> 新的图片
20250508151747

1.4.2 text-based detector to audio-based

有基于文字的检测,升级到基于音频的检测。

在Detic中,是基于文字对图片中的物体进行检测,替换其中的CLIP为IMAGEBIND,实现audio-based的检测。

说明:

这里有点不确定,是基于一段狗吠的音频对图片中狗进行检测,还是“狗吠”这两个字用语音说出来对图片中的狗进行检测。
不管哪种,感觉都挺有意思的,随着技术的发展,不远的将来一定能实现。

20250508152202

1.5 消融实验

1.5.1 scaling image encoder

由于是以image为中心,所以比较一下image encoder网络对性能影响。
结果表明:更强的视觉网络,效果更好,甚至在非视觉模态中。

20250508144959

1.5.2 损失和网络结构

1). 损失参数 τ \tau τ

在深度图、音频、IMU数据分类中,固定 τ \tau τ 效果更好。

除此以外,在depth,thermal, IMU数据训练中,更高的温度训练更好;audio中低温度更好。

2). 投影头

在两种模态中(SUN-D,ESC),linear 好于MLP。

3). epoch

更大的epoch能够提高”涌现的零样本学习能力“(emergent zero-shot)

4). 数据增强

当对SUN RGB-D数据集的少量(图像,深度)对进行训练时,更强的增强有助于深度分类。然而,对于音频,强烈增强视频使任务过于具有挑战性,导致ESC显着下降34%。

5). Depth specific design choices

空间不对齐,降低性能。

6). Audio specific design choices

时间对齐的样本会带来更好的性能。

7). Capacity of the audio and depth encoders

较小的深度编码器可以提高性能,可能是因为(image, depth)数据集的大小相对较小。相反,我们观察到更大的音频编码器提高了性能,特别是当与高容量图像编码器配对时。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2376494.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LeetCode LCR 007. 三数之和 (Java)

题目描述 给定一个整数数组 nums,判断是否存在三个元素 a, b, c,使得 a b c 0?找出所有满足条件且不重复的三元组。 解题思路 核心方法:排序 双指针 排序:首先将数组排序,便于后续去重和双指针操作。…

VTK|类似CloudCompare的比例尺实现1-源码分析

文章目录 CloudCompare源码分析void ccGLWindowInterface::drawScale(const ccColor::Rgbub& color)🧩 总体功能🧠 函数逐步解析✅ 1. 断言只在正交模式下使用✅ 2. 计算显示的实际长度✅ 3. 字体和图形区域准备✅ 4. 计算比例尺图形的绘制位置✅ 5.…

电子电器架构 --- 车载以太网拓扑

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 钝感力的“钝”,不是木讷、迟钝,而是直面困境的韧劲和耐力,是面对外界噪音的通透淡然。 生活中有两种人,一种人格外在意别人的眼光;另一种人无论…

phpstorm2024.3 设置中文

要在 PhpStorm 2024.3 中设置中文界面,你可以按照以下步骤进行操作。请注意,PhpStorm 2024.3 版本可能已经包括了中文语言包,但如果你使用的是较早的版本,可能需要下载额外的语言包。 方法一:直接在设置中切换&#x…

vxe-table 同时实现合并单元格与任意列展开行

前一段时间有一个需求,要求既要合并单元格,又要实现树状图的效果,但是展开节点tree-node 可以放在非第一列的任意位置,Vxe-table可以实现如下是效果图: 大家可以一起交流学习! ~重点注意事项:…

ArcGIS Desktop使用入门(二)常用工具条——图形

系列文章目录 ArcGIS Desktop使用入门(一)软件初认识 ArcGIS Desktop使用入门(二)常用工具条——标准工具 ArcGIS Desktop使用入门(二)常用工具条——编辑器 ArcGIS Desktop使用入门(二&#x…

神经网络语言模型(前馈神经网络语言模型)

神经网络语言模型 什么是神经网络?神经网络的基本结构是什么?输入层隐藏层输出层 神经网络为什么能解决问题?通用近似定理为什么需要权重和偏置?为什么需要激活函数?权重是如何确定的?1. 穷举2. 反向传播主…

CUDA编程——性能优化基本技巧

本文主要介绍下面三种技巧: 使用 __restrict__ 让编译器放心地优化指针访存想办法让同一个 Warp 中的线程的访存 Pattern 尽可能连续,以利用 Memory coalescing使用 Shared memory 0. 弄清Kernael函数是Compute-bound 还是 Memory-bound 先摆出一个知…

道通EVO MAX系列无人机-支持二次开发

道通EVO MAX系列无人机-支持二次开发 EVO Max 系列采用Autel Autonomy自主飞行技术,实现复杂环境下的全局路径规划、3D场景重建、自主绕障和返航;高精度视觉导航能力,使其在信号干扰强、信号遮挡、信号弱等复杂环境下,依然获得高精…

计算机网络-MPLS LDP基础实验配置

前面我们学习了LDP的会话建立、标签发布与交换、LDP的工作原理,今天通过一个基础实验来加深记忆。 一、LDP基础实验 实验拓扑: 1、IGP使用OSPF进行通告,使用Lookback接口作为LSR ID,LDP ID自动生成。 2、实验目的:使…

HPE ProLiant DL360 Gen11 服务器,配置 RAID 5 教程!

今天的任务,是帮客户的一台HPE ProLiant DL360 Gen11 服务器,配置RAID 5。依然是按照我的个人传统习惯,顺便做一个教程,分享给有需要的粉丝们。如果你在实际操作中,遇到了什么问题,欢迎在评论区留言&#x…

SARIMA-LSTM融合模型对太阳黑子数量预测分析|附智能体数据代码

全文智能体链接:https://tecdat.cn/?p41969 分析师:Peng Fan 本研究以太阳黑子活动数据为研究对象,旨在帮助客户探索其未来走势并提供预测分析。首先,通过对数据的清洗和处理,包括离群值的识别与处理以及时间序列的建…

C# WinForm DataGridView 非常频繁地更新或重新绘制慢问题及解决

非常频繁地更新 DataGridView问题描述: 在 C# 中无法在合理的时间内刷新我的 DataGridView ,我每秒通过网络发送 20 个数据包,获取数据。我想解析这些数据并将其放入 DataGridView 中。我还想调整 DataGridView 的更新间隔,从 0.1…

【数据结构】红黑树(C++)

目录 一、红黑树的概念 二、红黑树的性质 三、红黑树结点定义 四、红黑树的操作 1. 插入操作 1.1 插入过程 1.2 调整过程 1.2.1 叔叔节点存在且为红色 1.2.2 叔叔节点存在且为黑色 1.2.3 叔叔节点不存在 2. 查找操作 2.1 查找逻辑 2.2 算法流程图 2.3 使用示例 …

Android Framework学习五:APP启动过程原理及速度优化

文章目录 APP启动优化概述APP启动流程点击图片启动APP的过程启动触发Zygote 与应用进程创建Zygote进程的创建应用进程初始化 ApplicationActivity 启动与显示 优化启动时黑白屏现象可优化的阶段Application阶段相关优化 Activity阶段数据加载阶段 Framework学习系列文章 APP启动…

Meta的AIGC视频生成模型——Emu Video

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍Meta的视频生成模型Emu Video,作为Meta发布的第二款视频生成模型,在视频生成领域发挥关键作用。 🌺优质专栏回顾&am…

Axure难点解决分享:统计分析页面引入Echarts示例动态效果

亲爱的小伙伴,在您浏览之前,烦请关注一下,在此深表感谢! Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题:统计分析页面引入Echarts示例动态效果 主要内容:echart示例引入、大小调整、数据导入 应用场景:统计分析页面…

Docker 常见问题及其解决方案

一、安装与启动问题 1.1 安装失败 在不同操作系统上安装 Docker 时,可能会出现安装失败的情况。例如,在 Ubuntu 系统中,执行安装命令后提示依赖缺失。这通常是因为软件源配置不正确或系统缺少必要的依赖包。 解决方案: 确保系统…

IC解析之TPS92682-Q1(汽车LED灯控制IC)

目录 1 IC特性介绍2 主要参数3 接口定义4 工作原理分析TPS92682-Q1架构工作模式典型应用通讯协议 控制帧应答帧协议5 总结 1 IC特性介绍 TPS92682 - Q1 是德州仪器(TI)推出的一款双通道恒压横流控制器,同时还具有各种电器故障保护&#xff0c…

6.01 Python中打开usb相机并进行显示

本案例介绍如何打开USB相机并每隔100ms进行刷新的代码,效果如下: 一、主要思路: 1. 打开视频流、读取帧 self.cam_cap = cv2.VideoCapture(0) #打开 视频流 cam_ret, cam_frame = self.cam_cap.read() //读取帧。 2.使用定时器,每隔100ms读取帧 3.显示到Qt的QLabel…