谢赛宁团队提出 BLIP3-o:融合自回归与扩散模型的统一多模态架构,开创CLIP特征驱动的图像理解与生成新范式

news2025/5/19 14:28:52

BLIP3-o 是一个统一的多模态模型,它将自回归模型的推理和指令遵循优势与扩散模型的生成能力相结合。与之前扩散 VAE 特征或原始像素的研究不同,BLIP3-o 扩散了语义丰富的CLIP 图像特征,从而为图像理解和生成构建了强大而高效的架构。

此外还发布了包含 2000 万张带详细标题的图片(BLIP3o Pretrain Long Caption)和 400 万张带短标题的图片(BLIP3o Pretrain Short Caption)的数据集。

亮点

  • 完全开源:完全开源训练数据(预训练和指令调整)、训练方案、模型权重、代码。

  • 统一架构:用于图像理解和生成。

  • CLIP 特征扩散:直接扩散语义视觉特征,以实现更强的对齐和性能。

  • 最先进的性能:涵盖广泛的图像理解和生成基准。

支持的任务

  • 文本 → 文本

  • 图像→文本(图像理解)

  • 文本→图像(图像生成)

  • 图像 → 图像(图像编辑)

  • 多任务训练(图像生成和理解混合训练)

相关链接

  • 论文:https://arxiv.org/pdf/2505.09568

  • 代码:https://github.com/JiuhaiChen/BLIP3o

  • 模型:https://huggingface.co/BLIP3o/BLIP3o-Model

  • 预训练:https://huggingface.co/datasets/BLIP3o/BLIP3o-Pretrain

  • 优化:https://huggingface.co/datasets/BLIP3o/BLIP3o-60k

论文阅读

在近期的多模态模型研究中,统一图像理解和生成越来越受到关注。尽管图像理解的设计方案已被广泛研究,但用于统一图像生成框架的最佳模型架构和训练方法仍未得到充分探索。

鉴于自回归和扩散模型在高质量生成和可扩展性方面的巨大潜力,作者对它们在统一多模态环境中的应用进行了全面的研究,重点关注图像表征、建模目标和训练策略。基于这些研究,论文提出了一种新颖的方法,该方法使用扩散变换器来生成语义丰富的CLIP图像特征,这与传统的基于VAE的表征不同。这种设计既提高了训练效率,又提升了生成质量。

此外,作者证明了统一模型的顺序预训练策略——先进行图像理解训练,然后再进行图像生成训练——在保留图像理解能力的同时,发展强大的图像生成能力,具有实用优势。最后,作者精心策划了一个高质量的指令调整数据集 BLIP3o-60k,用于图像生成,通过为 GPT-4o 提供涵盖各种场景、物体、人体手势等内容的多样化字幕。基于论文提出的创新的模型设计、训练方案和数据集,作者开发了 BLIP3-o,这是一套最先进的统一多模态模型。BLIP3-o 在涵盖图像理解和生成任务的大多数热门基准测试中均取得了卓越的性能。

BLIP3-o 的架构。 在图像理解部分,我们使用 CLIP 对图像进行编码,并计算目标文本标记和预测文本标记之间的交叉熵损失。在图像生成部分,自回归模型首先生成一系列中间视觉特征,然后将其作为条件输入,输入到扩散变换器中,该变换器生成 CLIP 图像特征,以近似真实的 CLIP 特征。通过使用 CLIP 编码器,图像理解和图像生成共享相同的语义空间,从而有效地统一了这两个任务。

统一多模态模型中图像生成的三种设计选择。所有设计均采用自回归 + 扩散框架,但其图像生成组件有所不同。对于流匹配损失,我们保持自回归模型不变,仅对图像生成模块进行微调,以保留模型的语言能力。

联合训练 vs. 顺序训练:联合训练通过混合图像理解和图像生成数据进行多任务学习,同时更新自回归主干网络和生成模块。顺序训练将两个过程分开:首先,模型仅进行图像理解任务的训练;然后冻结自回归主干网络,并在第二阶段仅训练图像生成模块。

实验结果

BLIP3-o 8B 在 1024×1024 分辨率下的可视化结果

BLIP3-o 8B 在 1024×1024 分辨率下的可视化结果

图像理解基准测试的结果。用粗体突出显示最佳结果。

图像理解基准测试的结果。用粗体突出显示最佳结果。

图像生成基准结果

图像生成基准结果

Janus Pro 与模型在 DPG-Bench 上的人体研究结果。

Janus Pro 与模型在 DPG-Bench 上的人体研究结果。

结论

论文首次系统地探索了用于统一多模态建模的混合自回归和扩散架构,并评估了三个关键方面:图像表征(CLIP 与 VAE 特征)、训练目标(光流匹配与 MSE)以及训练策略(联合与顺序)。实验表明CLIP 嵌入与光流匹配损失相结合,能够提高训练效率并提升输出质量。基于这些洞察,作者推出了 BLIP3-o,这是一系列最先进的统一模型,并基于 60k 指令集调整数据集 BLIP3o-60k 进行了增强,显著提升了快速对齐和视觉美感。此外,作者正在积极开发该统一模型的应用,包括迭代图像编辑、视觉对话和逐步视觉推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2379341.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【idea】调试篇 idea调试技巧合集

前言:之前博主写过一篇idea技巧合集的文章,由于技巧过于多了,文章很庞大,所以特地将调试相关的技巧单独成章, 调试和我们日常开发是息息相关的,用好调试可以事半功倍 文章目录 1. idea调试异步线程2. idea调试stream流…

二叉树深搜:在算法森林中寻找路径

专栏:算法的魔法世界 个人主页:手握风云 目录 一、搜索算法 二、回溯算法 三、例题讲解 3.1. 计算布尔二叉树的值 3.2. 求根节点到叶节点数字之和 3.3. 二叉树剪枝 3.4. 验证二叉搜索树 3.5. 二叉搜索树中第 K 小的元素 3.6. 二叉树的所有路径 …

BMVC2023 | 多样化高层特征以提升对抗迁移性

Diversifying the High-level Features for better Adversarial Transferability 摘要-Abstract引言-Introduction相关工作-Related Work方法-Methodology实验-Experiments结论-Conclusion 论文链接 GitHub链接 本文 “Diversifying the High-level Features for better Adve…

有哪些GIF图片转换的开源工具

以下是关于GIF图片转换的开源工具的详细总结,涵盖功能特点、适用场景及用户评价: 1. FFmpeg 功能特点: 作为开源命令行工具,FFmpeg支持视频转GIF、调整帧率、分辨率、截取片段等操作,可通过脚本批量处理。适用场景: 适合开发者或技术用户进行高效批处理,常用于服务器端自…

C++—特殊类设计设计模式

目录 C—特殊类设计&设计模式1.设计模式2.特殊类设计2.1设计一个无法被拷贝的类2.2设计一个只能在堆上创建对象的类2.3设计一个只能在栈上创建对象的类2.4设计一个类,无法被继承2.5设计一个类。这个类只能创建一个对象【单例模式】2.5.1懒汉模式实现2.5.2饿汉模…

Android 手写签名功能详解:从原理到实践

Android 手写签名功能详解 1. 引言2. 手写签名核心实现:SignatureView 类3. 交互层实现:MainActivity 类4. 布局与配置5. 性能优化与扩展方向 1. 引言 在电子政务、金融服务等移动应用场景中,手写签名功能已成为提升用户体验与业务合规性的关…

Level2.8蛇与海龟(游戏)

#小龟快跑游戏 输入难度(1-5),蛇追到龟,游戏结束 #分析问题:从局部>整体 #游戏画面:创建画笔(海龟蛇)>1.海龟移动(键盘控制)>2.蛇(自动追踪,海龟位置)>3.海龟(限定范围,防止跑出画布之外)>4.游戏&…

【Android构建系统】如何在Camera Hal的Android.bp中选择性引用某个模块

背景描述 本篇文章是一个Android.bp中选择性引用某个模块的实例。 如果是Android.mk编译时期,在编译阶段通过某个条件判断是不是引用某个模块A, 是比较好实现的。Android15使用Android.bp构建后,要想在Android.bp中通过自定义的一个变量或者条件实现选…

【Canvas与诗词】醉里挑灯看剑 梦回吹角连营

【成图】 【代码】 <!DOCTYPE html> <html lang"utf-8"> <meta http-equiv"Content-Type" content"text/html; charsetutf-8"/> <head><title>醉里挑灯看剑梦回吹角连营 Draft1</title><style type"…

实现视频分片上传 OSS

访问 OSS 有两种方式&#xff0c;本文用到的是使用临时访问凭证上传到 OSS&#xff0c;不同语言版本的代码参考&#xff1a; 使用STS临时访问凭证访问OSS_对象存储(OSS)-阿里云帮助中心 1.安装并使用 首先我们要安装 OSS&#xff1a; npm install ali-oss --save 接着我们…

网络I/O学习(一)

一、什么是网络IO&#xff1f; 就是客户端和服务端之间的进行通信的通道(fd)。 二、网络IO通信步骤 1、建立套接字 int socketfd socket(AF_INET, SOCK_STREAM, 0);struct sockaddr_in servaddr; servaddr.sin_family AF_INET; servaddr.sin_addr.s_addr htonl(INADDR_A…

Selenium-Java版(css表达式)

css表达式 前言 根据 tag名、id、class 选择元素 tag名 #id .class 选择子元素和后代元素 定义 语法 根据属性选择 验证CSS Selector 组选择 按次序选择子节点 父元素的第n个子节点 父元素的倒数第n个子节点 父元素的第几个某类型的子节点 父元素的…

产品更新丨谷云科技 iPaaS 集成平台 V7.5 版本发布

五月&#xff0c;谷云科技 iPaaS 集成平台保持月度更新&#xff0c; V7.5 版本于近日正式发布。我们一起来看看新版本有哪些升级和优化。 核心新增功能&#xff1a;深化API治理&#xff0c;释放连接价值 API网关&#xff1a;全链路可控&#xff0c;精准管控业务状态 业务状态…

深度学习让鱼与熊掌兼得

通常,一个大的复杂的模型的loss会低,但是拟合方面不够,小的模型在拟合方面更好,但是loss高,我们可以通过深度学习来得到一个有着低loss的小模型 我们之前学过,peacewise linear可以用常数加上一堆这个阶梯型函数得到,然后因为peacewise linear可以逼近任何function,所以理论上…

TDuckX 2.6 正式发布|API 能力开放,核心表单逻辑重构,多项实用功能上线。

大家好&#xff0c;TDuckX 2.6 已正式发布。 本次更新以可集成性提升、数据处理能力增强和交互体验优化为核心&#xff0c;新增了包括 新增OpenAPI 模块、表单数据批量修改、字段导出分列 等多个面向开发者和实际业务落地场景的功能。 我们也重构了部分底层逻辑模块&#xff…

JAVA EE(进阶)_进阶的开端

别放弃浸透泪水的昨天&#xff0c;晨光已为明天掀开新篇 ——陳長生. ❀主页&#xff1a;陳長生.-CSDN博客❀ &#x1f4d5;上一篇&#xff1a;JAVA EE_HTTP-CSDN博客 1.什么是Java EE Java EE&#xff08;Java Pla…

ArcGIS Pro调用多期历史影像

一、访问World Imagery Wayback&#xff0c;基本在我国范围 如下图&#xff1a; 二、 放大到您感兴趣的区域 三、 查看影像版本信息 点击第二步的按钮后&#xff0c;便可跳转至World Imagery (Wayback 2025-04-24)的相关信息。 四 、点击上图影像版本信息&#xff0c;页面跳转…

组态王|组态王中如何添加西门子1200设备

哈喽,你好啊,我是雷工! 最近使用组态王采集设备数据,设备的控制器为西门子的1214CPU, 这里边实施边记录,以下为在组态王中添加西门子1200PLC的笔记。 1、新建 在组态王工程浏览器中选择【设备】→点击【新建】。 2、选择设备 和设备建立通讯要通过对应的设备驱动。 在…

6.2.2邻接表法-图的存储

知识总览&#xff1a; 为什么要用邻接表 因为邻接矩阵的空间复杂度高(O(n))&#xff0c;且不适合边少的稀疏图&#xff0c;所以有了邻接表 用代码表示顶点、图 声明顶点图信息 声明顶点用一维数组存储各个顶点的信息&#xff0c;一维数组字段包括2个&#xff0c;每个顶点的…

C++23 放宽范围适配器以允许仅移动类型(P2494R2)

文章目录 引言背景与动机提案内容与实现细节提案 P2494R2实现细节编译器支持 对开发者的影响提高灵活性简化代码向后兼容性 示例代码总结 引言 C23 标准中引入了许多重要的改进&#xff0c;其中一项值得关注的特性是放宽范围适配器&#xff08;range adaptors&#xff09;以允…