【多模态】IMAGEBIND论文阅读

【多模态】IMAGEBIND论文阅读

news2026/2/25 10:46:18

every blog every motto: Although the world is full of suffering， it is full also of the overcoming of it

0. 前言

IMAGEBIND 多模态论文梗概

IMAGEBIND是一种夸模态的神经网络，以图片为中心，联合六中模态的网络（图片、文字、音频、深度图、热力图、惯性测量单元）

1. 正文

1.1 梗概

一张照片可以将许多经历联系在一起——一张海滩的照片可以让我们想起海浪的声音、沙子的质地、微风，甚至激发一首诗的灵感。图像的这种“绑定”属性为学习视觉特征提供了许多监督来源，通过将它们与任何与图像相关的感官体验相结合。

之前的工作主要集中在image-text，或videoaudio and captions等少数几种模态。

而IMAGEBIND将每种模态和图片对齐。

理想情况是同一张图片找到和其对齐的其他模态，而这在实际中是不可获得的。

其他5种模态和图片对齐：
20250508135121

6中模型主要都是VIT类。

1.2 损失函数

20250508135903

上式为I和M的损失，I表示image,M表示其他模态的数据。

$q = f (I), k = g (M)$ ，其中 $f, g$ 表示深度网络。

$\tau$ 温度标量，用于控制softmax的平滑。
$j$ 表示不相关的pairs。

在实际中， $Loss = L_{I,M} + L_{M,I}$

1.3 涌现的对齐能力

在IMAGEBIND中，对于未出现的pairs涌现了对齐能力。如，只训练了(I,M1),和(I,M2)出现了(M1,M2)之前的对齐。

zero-shot: 在CLIP中，使用的image-text训练，使用text-prompts去证明zero-shot能力，
emergent zero-shot(涌现的零样本学习能力): 而在IMAGEBIND中，使用image-text和image-audio训练，IMAGEBIND可以用text prompts对audio进行分类，

1.4 应用

1.4.1 多模态嵌入空间算法

图片+音频–> 新的图片
20250508151747

1.4.2 text-based detector to audio-based

有基于文字的检测，升级到基于音频的检测。

在Detic中，是基于文字对图片中的物体进行检测，替换其中的CLIP为IMAGEBIND,实现audio-based的检测。

说明：

这里有点不确定，是基于一段狗吠的音频对图片中狗进行检测，还是“狗吠”这两个字用语音说出来对图片中的狗进行检测。
不管哪种，感觉都挺有意思的，随着技术的发展，不远的将来一定能实现。

20250508152202

1.5 消融实验

1.5.1 scaling image encoder

由于是以image为中心，所以比较一下image encoder网络对性能影响。
结果表明：更强的视觉网络，效果更好，甚至在非视觉模态中。

20250508144959

1.5.2 损失和网络结构

1). 损失参数 $\tau$

在深度图、音频、IMU数据分类中，固定 $\tau$ 效果更好。

除此以外，在depth,thermal, IMU数据训练中，更高的温度训练更好；audio中低温度更好。

2). 投影头

在两种模态中(SUN-D,ESC)，linear 好于MLP。

3). epoch

更大的epoch能够提高”涌现的零样本学习能力“(emergent zero-shot)

4). 数据增强

当对SUN RGB-D数据集的少量（图像，深度）对进行训练时，更强的增强有助于深度分类。然而，对于音频，强烈增强视频使任务过于具有挑战性，导致ESC显着下降34%。

5). Depth specific design choices

空间不对齐，降低性能。

6). Audio specific design choices

时间对齐的样本会带来更好的性能。

7). Capacity of the audio and depth encoders

较小的深度编码器可以提高性能，可能是因为（image, depth）数据集的大小相对较小。相反，我们观察到更大的音频编码器提高了性能，特别是当与高容量图像编码器配对时。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2376494.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

LeetCode LCR 007. 三数之和 (Java)

LeetCode LCR 007. 三数之和 (Java)

题目描述给定一个整数数组 nums，判断是否存在三个元素 a, b, c，使得 a b c 0？找出所有满足条件且不重复的三元组。解题思路核心方法：排序双指针排序：首先将数组排序，便于后续去重和双指针操作。…

阅读更多...

VTK|类似CloudCompare的比例尺实现1-源码分析

VTK|类似CloudCompare的比例尺实现1-源码分析

文章目录 CloudCompare源码分析void ccGLWindowInterface::drawScale(const ccColor::Rgbub& color)🧩 总体功能🧠 函数逐步解析✅ 1. 断言只在正交模式下使用✅ 2. 计算显示的实际长度✅ 3. 字体和图形区域准备✅ 4. 计算比例尺图形的绘制位置✅ 5.…

阅读更多...

电子电器架构 --- 车载以太网拓扑

电子电器架构 --- 车载以太网拓扑

我是穿拖鞋的汉子，魔都中坚持长期主义的汽车电子工程师。老规矩，分享一段喜欢的文字，避免自己成为高知识低文化的工程师：钝感力的“钝”，不是木讷、迟钝，而是直面困境的韧劲和耐力，是面对外界噪音的通透淡然。生活中有两种人，一种人格外在意别人的眼光;另一种人无论…

阅读更多...

phpstorm2024.3 设置中文

phpstorm2024.3 设置中文

要在 PhpStorm 2024.3 中设置中文界面，你可以按照以下步骤进行操作。请注意，PhpStorm 2024.3 版本可能已经包括了中文语言包，但如果你使用的是较早的版本，可能需要下载额外的语言包。方法一：直接在设置中切换&#x…

阅读更多...

vxe-table 同时实现合并单元格与任意列展开行

vxe-table 同时实现合并单元格与任意列展开行

前一段时间有一个需求，要求既要合并单元格，又要实现树状图的效果，但是展开节点tree-node 可以放在非第一列的任意位置，Vxe-table可以实现如下是效果图： 大家可以一起交流学习！ ~重点注意事项：…

阅读更多...

ArcGIS Desktop使用入门（二）常用工具条——图形

ArcGIS Desktop使用入门（二）常用工具条——图形

系列文章目录 ArcGIS Desktop使用入门（一）软件初认识 ArcGIS Desktop使用入门（二）常用工具条——标准工具 ArcGIS Desktop使用入门（二）常用工具条——编辑器 ArcGIS Desktop使用入门（二&#x…

阅读更多...

神经网络语言模型（前馈神经网络语言模型）

神经网络语言模型（前馈神经网络语言模型）

神经网络语言模型什么是神经网络？神经网络的基本结构是什么？输入层隐藏层输出层神经网络为什么能解决问题？通用近似定理为什么需要权重和偏置？为什么需要激活函数？权重是如何确定的？1. 穷举2. 反向传播主…

阅读更多...

CUDA编程——性能优化基本技巧

CUDA编程——性能优化基本技巧

本文主要介绍下面三种技巧： 使用 __restrict__ 让编译器放心地优化指针访存想办法让同一个 Warp 中的线程的访存 Pattern 尽可能连续，以利用 Memory coalescing使用 Shared memory 0. 弄清Kernael函数是Compute-bound 还是 Memory-bound 先摆出一个知…

阅读更多...

道通EVO MAX系列无人机-支持二次开发

道通EVO MAX系列无人机-支持二次开发

道通EVO MAX系列无人机-支持二次开发 EVO Max 系列采用Autel Autonomy自主飞行技术，实现复杂环境下的全局路径规划、3D场景重建、自主绕障和返航；高精度视觉导航能力，使其在信号干扰强、信号遮挡、信号弱等复杂环境下，依然获得高精…

阅读更多...

计算机网络-MPLS LDP基础实验配置

计算机网络-MPLS LDP基础实验配置

前面我们学习了LDP的会话建立、标签发布与交换、LDP的工作原理，今天通过一个基础实验来加深记忆。一、LDP基础实验实验拓扑： 1、IGP使用OSPF进行通告，使用Lookback接口作为LSR ID，LDP ID自动生成。 2、实验目的：使…

阅读更多...

HPE ProLiant DL360 Gen11 服务器，配置 RAID 5 教程！

HPE ProLiant DL360 Gen11 服务器，配置 RAID 5 教程！

今天的任务，是帮客户的一台HPE ProLiant DL360 Gen11 服务器，配置RAID 5。依然是按照我的个人传统习惯，顺便做一个教程，分享给有需要的粉丝们。如果你在实际操作中，遇到了什么问题，欢迎在评论区留言&#x…

阅读更多...

SARIMA-LSTM融合模型对太阳黑子数量预测分析|附智能体数据代码

SARIMA-LSTM融合模型对太阳黑子数量预测分析|附智能体数据代码

全文智能体链接：https://tecdat.cn/?p41969 分析师：Peng Fan 本研究以太阳黑子活动数据为研究对象，旨在帮助客户探索其未来走势并提供预测分析。首先，通过对数据的清洗和处理，包括离群值的识别与处理以及时间序列的建…

阅读更多...

C# WinForm DataGridView 非常频繁地更新或重新绘制慢问题及解决

C# WinForm DataGridView 非常频繁地更新或重新绘制慢问题及解决

非常频繁地更新 DataGridView问题描述： 在 C# 中无法在合理的时间内刷新我的 DataGridView ，我每秒通过网络发送 20 个数据包，获取数据。我想解析这些数据并将其放入 DataGridView 中。我还想调整 DataGridView 的更新间隔，从 0.1…

阅读更多...

【数据结构】红黑树（C++）

【数据结构】红黑树（C++）

目录一、红黑树的概念二、红黑树的性质三、红黑树结点定义四、红黑树的操作 1. 插入操作 1.1 插入过程 1.2 调整过程 1.2.1 叔叔节点存在且为红色 1.2.2 叔叔节点存在且为黑色 1.2.3 叔叔节点不存在 2. 查找操作 2.1 查找逻辑 2.2 算法流程图 2.3 使用示例 …

阅读更多...

Android Framework学习五：APP启动过程原理及速度优化

Android Framework学习五：APP启动过程原理及速度优化

文章目录 APP启动优化概述APP启动流程点击图片启动APP的过程启动触发Zygote 与应用进程创建Zygote进程的创建应用进程初始化 ApplicationActivity 启动与显示优化启动时黑白屏现象可优化的阶段Application阶段相关优化 Activity阶段数据加载阶段 Framework学习系列文章 APP启动…

阅读更多...

Meta的AIGC视频生成模型——Emu Video

Meta的AIGC视频生成模型——Emu Video

大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型Emu Video，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。 🌺优质专栏回顾&am…

阅读更多...

Axure难点解决分享：统计分析页面引入Echarts示例动态效果

Axure难点解决分享：统计分析页面引入Echarts示例动态效果

亲爱的小伙伴，在您浏览之前，烦请关注一下，在此深表感谢！ Axure产品经理精品视频课已登录CSDN可点击学习https://edu.csdn.net/course/detail/40420 课程主题：统计分析页面引入Echarts示例动态效果主要内容：echart示例引入、大小调整、数据导入应用场景：统计分析页面…

阅读更多...

Docker 常见问题及其解决方案

Docker 常见问题及其解决方案

一、安装与启动问题 1.1 安装失败在不同操作系统上安装 Docker 时，可能会出现安装失败的情况。例如，在 Ubuntu 系统中，执行安装命令后提示依赖缺失。这通常是因为软件源配置不正确或系统缺少必要的依赖包。解决方案： 确保系统…

阅读更多...

IC解析之TPS92682-Q1(汽车LED灯控制IC)

IC解析之TPS92682-Q1(汽车LED灯控制IC)

目录 1 IC特性介绍2 主要参数3 接口定义4 工作原理分析TPS92682-Q1架构工作模式典型应用通讯协议控制帧应答帧协议5 总结 1 IC特性介绍 TPS92682 - Q1 是德州仪器（TI）推出的一款双通道恒压横流控制器，同时还具有各种电器故障保护&#xff0c…

阅读更多...

6.01 Python中打开usb相机并进行显示

6.01 Python中打开usb相机并进行显示

本案例介绍如何打开USB相机并每隔100ms进行刷新的代码，效果如下：一、主要思路： 1. 打开视频流、读取帧 self.cam_cap = cv2.VideoCapture(0) #打开视频流 cam_ret, cam_frame = self.cam_cap.read() //读取帧。 2.使用定时器，每隔100ms读取帧 3.显示到Qt的QLabel…

阅读更多...

推荐文章

最新文章