T2I-R1:通过语义级与图像 token 级协同链式思维强化图像生成

news2025/5/13 5:19:46

文章目录

  • 速览
  • 摘要
  • 1 引言
  • 2 相关工作
    • 统一生成与理解的 LMM(Unified Generation and Understanding LMM.)
    • 用于大型推理模型的强化学习(Reinforcement Learning for Large Reasoning Models.)
  • 3 方法
    • 3.1 预备知识
    • 3.2 语义级与令牌级 CoT
      • 语义级 CoT(Semantic-level CoT)
      • 令牌级 CoT(Token-level CoT)
    • 3.3 BiCoT-GRPO
    • 3.4 生成奖励的集成方法(Ensemble of Generation Rewards)
      • 人类偏好模型(Human Preference Model)
      • 目标检测器(Object Detector)
      • 视觉问答模型(Visual Question Answering Model)
      • 输出奖励模型(Output Reward Model)
  • 4. 实验
    • 4.1 实验设置
    • 4.2 主要结果
    • 4.3 奖励函数分析
    • 4.4 消融实验
  • 5 结论

T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
香港中文大学 MMLab;香港中文大学 MiuLar Lab;上海人工智能实验室
arxiv’25’05

速览

动机
(1)尽管图像生成任务已取得显著进展,现有模型普遍缺乏显式推理能力,难以处理复杂提示语中的语义规划与细节对齐问题。
(2)目前在图像生成领域,还没有研究能做到将图像理解与图像生成在一个训练步骤中进行训练的,之前虽然有统一多模态模型(即拥有图像理解与图像生成的能力),但是他们都是分开训练的,且没有显示的证据证明图像理解部分对图像生成是有帮助的。

方法
(1)首先作者识别出两种对图像生成有帮助的CoT,即语义级CoT和图像Token级CoT。
(2)为了同时兼容图像生成中的语义级与令牌级 CoT,作者提出了 BiCoT-GRPO,模型在一次生成过程中进行两轮推理。指导模型首先执行语义级 CoT 以进行全局规划,然后再通过执行图像token级 CoT 深入进行局部细节生成。
(3)与 DeepSeek-R1 所用的规则奖励不同,图像生成无法靠预定义规则评估质量,因此作者引入由多位视觉专家组成的评估系统,从审美、内容与结构等多维度综合判断生成图像的优劣。

实验
实验这里有一个验证挺有意思,语义层级 CoT 被用于图像生成,但 GRPO 仅优化语义层级 CoT 而不包含 token 层级 CoT。即GRPO是否仅增强模型的高级规划能力?
实验结果显示仅优化语义层级 CoT 所带来的提升小于联合优化两种 CoT 时的提升。此外,作者发现同时优化两种 CoT 类型能够生成具有更高美学质量的图像,相较于仅优化语义层级 CoT 的情况更为优越。这表明联合优化两个层级的 CoT 是必要的。

摘要

近年来,大型语言模型在链式思维(Chain-of-Thought, CoT)和强化学习(Reinforcement Learning, RL)方面的进展表明,这些机制能够提升模型性能。然而,将此类推理策略应用于视觉生成领域仍然鲜有探索。

本文提出 T2I-R1,这是一种引入推理机制的文本生成图像模型,基于强化学习,并采用双层次的 CoT 推理过程。具体而言,我们识别出两个可以在生成的不同阶段加以利用的 CoT 层次:(1)语义级 CoT,用于提示语的高层次规划;(2)令牌级 CoT,用于逐块生成过程中的低层次像素处理。

为了更好地协调这两个层次的 CoT,我们引入 BiCoT-GRPO,它结合了多种生成奖励的集成方法,能够在同一训练步骤中无缝优化两种 CoT 推理策略

通过将我们的推理策略应用于基础模型 Janus-Pro,我们在 T2I-CompBench 上获得了 13% 的性能提升,在 WISE benchmark 上获得了 19% 的性能提升,甚至超越了当前最先进的模型 FLUX.1

代码开源地址为:https://github.com/CaraJ7/T2I-R1。

1 引言

先进的大型语言模型(Large Language Models, LLMs)的兴起 [45, 47, 63, 72],例如 OpenAI 的 o1 [48] 和 DeepSeek-R1 [17],已在多个领域展现出强大的推理能力,包括数学 [1, 20, 42] 和代码生成 [6, 2, 23]。借助强化学习(Reinforcement Learning, RL)[55, 56],这些模型借助完备的链式思维(Chain-of-Thought, CoT)机制 [66, 27, 19, 25, 77, 18],逐步分析问题后再给出答案,显著提升了输出结果的准确性。

CoT 推理策略也已扩展至视觉领域。近年来的大型多模态模型(Large Multi-modal Models, LMMs)[5, 43, 75, 78] 已调整该范式以适配视觉理解任务 [40, 77, 26]。这些先进的 LMMs 能够联合处理图像与其对应的文本查询,逐步分析视觉细节并结合推理步骤以推导出最终答案。同时,类 CoT 的推理机制已开始在视觉生成任务中探索,尤其是在自回归式文本生成图像(text-to-image generation)中。开创性工作 “Image Generation with CoT” [19] 将图像 token 的渐进生成类比为一种 CoT 机制,并提出优化这一中间过程以提升图像质量。

250508:自回归可以理解为条件概论的链式法则 P ( x 1 , x 2 , … , x n ) = P ( x 1 ) ⋅ P ( x 2 ∣ x 1 ) ⋅ P ( x 3 ∣ x 1 , x 2 ) ⋯ P ( x n ∣ x 1 , x 2 , … , x n − 1 ) P(x_1, x_2, \dots, x_n) = P(x_1) \cdot P(x_2 \mid x_1) \cdot P(x_3 \mid x_1, x_2) \cdots P(x_n \mid x_1, x_2, \dots, x_{n-1}) P(x1,x2,,xn)=P(x1)P(x2x1)P(x3x1,x2)P(xnx1,x2,,xn1),举个简单例子 P ( “I like apples” ) = P ( “I” ) ⋅ P ( “like” ∣ “I” ) ⋅ P ( “apples” ∣ “I like” ) P(\text{``I like apples''}) = P(\text{``I''}) \cdot P(\text{``like''} \mid \text{``I''}) \cdot P(\text{``apples''} \mid \text{``I like''}) P(“I like apples”)=P(“I”)P(“like”“I”)P(“apples”“I like”),在语言模型中,每一个词的生成,都是基于前面所有词的条件概率,这就是自回归。
250508:就像画家一笔一笔画图,每一笔都受到前一笔的影响,也可以看成是一种思考链。

尽管已有这些进展,CoT 在图像生成中的探索仍处于初级阶段。与图像理解不同,图像生成需要跨模态对齐的复杂解释以及细粒度视觉细节的综合。为应对这些挑战,我们识别出两种可用于增强图像生成的 CoT 推理机制,如图 1 所示:

  • 语义级 CoT(Semantic-level CoT) 是在图像生成前进行的关于要生成图像的文本推理。语义级 CoT 设计图像的全局结构,例如每个物体的外观和位置。如图 2 所示,当提示语需要推理时,语义级 CoT 也有助于推断应生成的目标。优化语义级 CoT 可以显式地管理提示词的规划与推理,从而简化后续图像 token 的生成过程。

  • 令牌级 CoT(Token-level CoT) 是图像逐块(patch-by-patch)生成的中间过程,最初在 [19] 中提出。该过程可视为 CoT 的一种形式,其在有限空间内以每个先前 token 为条件生成下一个 token,类似于文本 CoT。与语义级 CoT 不同,令牌级 CoT 聚焦于低层次细节,如像素生成和相邻 patch 之间的视觉连贯性。优化令牌级 CoT 可同时提升图像生成质量和提示词与生成图像之间的一致性。
    在这里插入图片描述
    在这里插入图片描述

尽管已经识别出这两个层次的 CoT,仍存在一个关键问题未被解决:我们如何增强并协调这两个 CoT 机制以适用于文本生成图像? 当前主流的生成模型 [58, 61, 53, 28] 仅针对生成目标进行训练,缺乏专门用于语义级 CoT 推理的文本理解模块。虽然引入一个专门用于提示语解析的模型(如 LLM)[9] 在技术上可行,但这将大幅增加计算成本、系统复杂性和部署难度。近期出现了一种趋势,即在同一个模型中融合视觉理解与生成。基于 LMMs,统一多模态模型(Unified LMMs, ULMs)[67, 70, 79, 7] 不仅可以理解视觉输入,还能根据文本提示词生成图像。然而,这些模型的能力依然是解耦的,通常在两个独立阶段分别进行预训练,缺乏明确证据表明理解能力能对生成任务产生正向作用

鉴于这些潜力与问题,我们从一个 ULM 出发进行增强,将语义级与令牌级 CoT 融合到一个统一框架中,用于文本生成图像任务。

为实现我们的目标,我们引入 BiCoT-GRPO,这是一种用于联合优化 ULM 中语义级与令牌级 CoT 的强化学习(RL)方法。我们选择 RL 而非监督式微调(SFT),主要有两个原因:第一,ULM 已具备语义级和令牌级 CoT 所需的基本能力,我们的目标仅是通过引导模型的自我探索来融合这两种能力;第二,RL 方法已被证明在提升推理能力方面非常有效,而这对双层次 CoT 都至关重要。

具体而言,我们首先指导 ULM 对提示词进行想象与规划,生成图像的整体蓝图,从而获得语义级 CoT。然后,我们将该结果作为条件输入 ULM,驱动后续图像的令牌级 CoT 生成。我们会在每个提示词下同时生成多个图像,并计算组相对奖励(group-relative reward),以在同一次迭代中优化两个层次的 CoT。

与具备明确奖励规则的理解类任务不同,图像生成往往缺乏这类标准,因此我们提出采用由多位视觉专家组成的奖励模型集成方案 [68, 64, 38, 19]。这种奖励设计具有两个核心目的:一是从多维度评估生成图像,以确保质量评估的可靠性;二是作为一种正则化手段,防止 ULM 针对单一奖励模型进行“投机”训练。

通过上述推理策略,我们提出了 T2I-R1,这是首个融合语义级与令牌级 CoT 的推理增强型文本生成图像模型。实证结果表明,该方法在 T2I-CompBench 和 WISE 基准上分别相较于基线方法提升了 13%19% 的性能,甚至超过了先前最先进模型 FLUX.1

定性分析显示,我们的方法使得模型能更贴合人类意图地理解提示词背后的真实含义,并在面对罕见场景时展现出更强的鲁棒性。

我们的贡献总结如下:

  1. 我们在自回归图像生成任务中提出了一种双层次推理流程,通过引入语义级和令牌级 CoT,实现高层次图像规划与低层次像素生成的解耦,从而实现更可靠的生成。

  2. 我们提出了 BiCoT-GRPO,一个新型强化学习框架,可联合优化两个层次的 CoT 推理,利用 ULM 的理解能力实现图像生成。同时,在奖励建模中,我们设计了一个集成多位视觉专家的鲁棒奖励系统。

  3. 最终模型 T2I-R1 融合了两个 CoT 层次并使用 BiCoT-GRPO 进行训练,在多个已建立基准测试中表现出显著性能提升,超越了 FLUX.1

2 相关工作

统一生成与理解的 LMM(Unified Generation and Understanding LMM.)

近年来,将图像生成与图像理解统一到同一个 LMM 中的研究受到了广泛关注。基于大型语言模型(LLMs),让多模态大模型(LMMs)理解图像并输出文本是很自然的事情 [46, 30, 81, 16, 76]。然而,如何从 LMM 中生成图像仍是一个待探索的问题。图像生成的方法大致分为两个方向。

一种方法依赖于外部图像生成模型来完成生成过程 [11, 60, 59, 34, 62, 13, 80, 29]。这类方法通常使用文本生成图像的扩散模型(diffusion models)[53, 49],因其具有强大的生成能力。为了向生成器传递生成信息,LMM 会将隐式特征或显式的图像提示词传递给生成器。例如,EMU [60] 首先训练多模态大模型(LMM)输出与输入到该模型的 CLIP [51] 图像特征相同的表示。之后,使用预训练的 UNet [54] 或 Stable Diffusion [53],将这些输出特征作为生成图像的条件。

250508:训练时,把一张图像输入 CLIP → 得到一个图像特征向量 f C L I P f_{CLIP} fCLIP,然后输入一段文本提示(prompt)给 LMM,训练它的输出结果也要尽量还原出和 f C L I P f_{CLIP} fCLIP 一模一样的图像特征向量。这样做的目的是:让 LMM 学会在脑海中“预演”图像的特征表示,为后续真正生成图像做好准备。

另一种方向试图训练 LMM 直接生成由 VQGAN [12] 提供的离散 token,从而省去额外的生成器需求。DeepSeek-R1 [65, 32] 直接采用 VQGAN 编码器作为 LMM 的图像 tokenizer。然而,由于 VQGAN 编码器仅在图像重建任务上进行预训练,其生成的视觉 token 通常对图像理解帮助有限。

250508:DeepSeek-R1 采用 VQGAN 编码器将输入图像转换为离散的视觉 token,作为多模态大模型(LMM)的输入,就像处理文本 token 一样进行统一建模。在图像生成时,LMM 依据文本提示生成一串图像 token,随后再由 VQGAN 解码器还原为完整图像。这种方式让模型能端到端地理解和生成图像,省去了额外的图像生成器。
250508:VQGAN 编码器本质上是为了 图像重建任务而训练的,即:它擅长的是“还原图像细节”,而不是“理解语义信息”。

为提升理解能力,[67, 7, 41, 36] 提出将理解与生成任务分配给不同的视觉编码器。CLIP 编码器处理图像理解,VQGAN 编码器负责图像生成。同时,一些研究 [69, 50, 57] 尝试通过联合预训练,使视觉编码器具备图像理解与图像生成的双重能力。VILA-U [69] 使用对比损失(contrastive loss)[51] 进行文本-图像理解,同时结合重建损失 [12] 来保留图像细节。在联合预训练的帮助下,视觉编码器能够生成与文本对齐的离散视觉 token,LMM 随后接收这些 token 并将其用于图像理解和图像生成。

用于大型推理模型的强化学习(Reinforcement Learning for Large Reasoning Models.)

OpenAI 的 o1 [48] 推出后,在提升大型语言模型推理能力方面受到了广泛关注。之后,DeepSeek-R1 [17] 提出了基于规则奖励与 GRPO 训练机制的方法,引导模型在生成最终答案前执行更为细致的推理过程。该奖励机制主要关注答案的正确性和逻辑推理的完整性。

近期,已有多项研究将此类方法应用于多模态语言模型 [5, 43, 73, 75, 10, 22],并引入了如正确性与 IoU [39] 等任务相关的特定奖励。这类训练机制在多个高复杂度推理任务中表现出良好效果 [52, 26, 18],包括数学求解 [20, 42, 40, 77, 78] 和代码生成 [6, 2, 23]。

3 方法

3.1 预备知识

近年来,强化学习被广泛用于激发大型模型的推理能力。[56] 引入了 GRPO,它通过以 group-relative 方式消除价值函数并估计优势函数,从而增强了 PPO。对于一个特定的提示-答案对 ( p , a ) (p, a) (p,a),从旧策略 π old \pi_{\text{old}} πold 中采样得到 G G G 个个体响应 { o i } i = 1 G \{o_i\}_{i=1}^G { oi}i=1G。每个响应会被送入奖励函数以获取个体奖励 R i \mathcal{R}_i Ri,接着通过对该组内的奖励 { R i } i = 1 G \{\mathcal{R}_i\}_{i=1}^G { Ri}i=1G 进行标准化计算第 i i i 个响应的优势值

A i = R i − mean ( { R i } i = 1 G ) std ( { R i } i = 1 G ) . (1) A_i = \frac{\mathcal{R}_i - \text{mean}(\{\mathcal{R}_i\}_{i=1}^G)}{\text{std}(\{\mathcal{R}_i\}_{i=1}^G)}. \tag{1} Ai=std({ Ri}i=1G)Rimean({ Ri}i=1G).(1)

GRPO 采用了类似于 PPO 的裁剪目标函数。此外,当前策略 π θ \pi_\theta πθ 与参考模型 π θ ref \pi_{\theta_{\text{ref}}} πθref 之间的 KL 惩罚项也被直接加入损失函数中:

J GRPO ( θ ) = E ( q , a ) ∼ D , { o i } i = 1 G ∼ π θ old ( ⋅ ∣ q ) [ 1 ∑ i = 1 G ∣ o

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2373065.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Dockers部署oscarfonts/geoserver镜像的Geoserver

Dockers部署oscarfonts/geoserver镜像的Geoserver 说实话,最后发现要选择合适的Geoserver镜像才是关键,所以所以所以…🐷 推荐oscarfonts/geoserver的镜像! 一开始用kartoza/geoserver镜像一直提示内存不足,不过还好…

扩增子分析|微生物生态网络稳定性评估之鲁棒性(Robustness)和易损性(Vulnerability)在R中实现

一、引言 周集中老师团队于2021年在Nature climate change发表的文章,阐述了网络稳定性评估的原理算法,并提供了完整的代码。自此对微生物生态网络的评估具有更全面的指标,自此网络稳定性的评估广受大家欢迎。本系列将介绍网络稳定性之鲁棒性…

【含文档+PPT+源码】基于微信小程序的社区便民防诈宣传系统设计与实现

项目介绍 本课程演示的是一款基于微信小程序的社区便民防诈宣传系统设计与实现,主要针对计算机相关专业的正在做毕设的学生与需要项目实战练习的 Java 学习者。 1.包含:项目源码、项目文档、数据库脚本、软件工具等所有资料 2.带你从零开始部署运行本套…

【MySQL】存储引擎 - ARCHIVE、BLACKHOLE、MERGE详解

📢博客主页:https://blog.csdn.net/2301_779549673 📢博客仓库:https://gitee.com/JohnKingW/linux_test/tree/master/lesson 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正! &…

代码随想录第41天:图论2(岛屿系列)

一、岛屿数量(Kamacoder 99) 深度优先搜索: # 定义四个方向:右、下、左、上,用于 DFS 中四向遍历 direction [[0, 1], [1, 0], [0, -1], [-1, 0]]def dfs(grid, visited, x, y):"""对一块陆地进行深度…

VUE CLI - 使用VUE脚手架创建前端项目工程

前言 前端从这里开始,本文将介绍如何使用VUE脚手架创建前端工程项目 1.预准备(编辑器和管理器) 编辑器:推荐使用Vscode,WebStorm,或者Hbuilder(适合刚开始练手使用),个…

Java EE初阶——初识多线程

1. 认识线程 线程是操作系统能够进行运算调度的最小单位。它被包含在进程之中,是进程中的实际运作单位。 基本概念:一个进程可以包含多个线程,这些线程共享进程的资源,如内存空间、文件描述符等,但每个线程都有自己独…

如何删除网上下载的资源后面的文字

这是我在爱给网上下载的音效资源,但是发现资源后面跟了一大段无关紧要的文本,但是修改资源名称后还是有。解决办法是打开属性然后删掉资源的标签即可。

FPGA图像处理(5)------ 图片水平镜像

利用bram形成双缓冲,如下图配置所示: wr_flag 表明 buffer0写 还是 buffer1写 rd_flag 表明 buffer0读 还是 buffer1读 通过写入逻辑控制(结合wr_finish) 写哪个buffer ;写地址 进而控制ip的写使能 通过状态缓存来跳转buffer的…

day21python打卡

知识点回顾: LDA线性判别PCA主成分分析t-sne降维 还有一些其他的降维方式,也就是最重要的词向量的加工,我们未来再说 作业: 自由作业:探索下什么时候用到降维?降维的主要应用?或者让ai给你出题&…

ERP学习(一): 用友u8安装

安装: https://www.bilibili.com/video/BV1Pp4y187ot/?spm_id_from333.337.search-card.all.click&vd_sourced514093d85ee628d1f12310b13b1e59b 我个人用vmware16,这位up已经把用友软件和环境(sqlserver2008) 都封城vmx文件了…

01 | 大模型微调 | 从0学习到实战微调 | AI发展与模型技术介绍

一、导读 作为非AI专业技术开发者(我是小小爬虫开发工程师😋) 本系列文章将围绕《大模型微调》进行学习(也是我个人学习的笔记,所以会持续更新),最后以上手实操模型微调的目的。 (本文如若有…

海康相机无损压缩

设置无损压缩得到更高的带宽和帧率!

从机器人到调度平台:超低延迟RTMP|RTSP播放器系统级部署之道

✅ 一、模块定位:跨平台、超低延迟、系统级稳定的音视频直播播放器内核 在无人机、机器人、远程操控手柄等场景中,低延迟的 RTSP/RTMP 播放器并不是“可有可无的体验优化”,而是系统能否闭环、操控是否安全的关键组成。 Windows和安卓播放RT…

研发效率破局之道阅读总结(5)管理文化

研发效率破局之道阅读总结(5)管理文化 Author: Once Day Date: 2025年5月10日 一位热衷于Linux学习和开发的菜鸟,试图谱写一场冒险之旅,也许终点只是一场白日梦… 漫漫长路,有人对你微笑过嘛… 全系列文章可参考专栏: 程序的艺术_Once-Day…

单因子实验 方差分析

本文是实验设计与分析(第6版,Montgomery著傅珏生译)第3章单因子实验 方差分析python解决方案。本文尽量避免重复书中的理论,着于提供python解决方案,并与原书的运算结果进行对比。您可以从 下载实验设计与分析(第6版&a…

Bitacora:基因组组件中基因家族识别和注释的综合工具

软件教程 | Bitacora:基因组组件中基因家族识别和注释的综合工具 https://zhangzl96.github.io/tags#生物信息工具) 📅 官方地址:https://github.com/molevol-ub/bitacora 🔬 教程版本:BITACORA 1.4 📋 …

【WebRTC-13】是在哪,什么时候,创建编解码器?

Android-RTC系列软重启,改变以往细读源代码的方式 改为 带上实际问题分析代码。增加实用性,方便形成肌肉记忆。同时不分种类、不分难易程度,在线征集问题切入点。 问题:编解码器的关键实体类是什么?在哪里&什么时候…

青少年编程与数学 02-019 Rust 编程基础 01课题、环境准备

青少年编程与数学 02-019 Rust 编程基础 01课题、环境准备 一、Rust核心特性应用场景开发工具社区与生态 二、Rust 和 Python 比较1. **内存安全与并发编程**2. **性能**3. **零成本抽象**4. **跨平台支持**5. **社区与生态系统**6. **错误处理**7. **安全性**适用场景总结 三、…

Redis持久化存储介质评估:NFS与Ceph的适用性分析

#作者:朱雷 文章目录 一、背景二、Redis持久化的必要性与影响1. 持久化的必要性2. 性能与稳定性问题 三、NFS作为持久化存储介质的问题1. 性能瓶颈2. 数据一致性问题3. 存储服务单点故障4. 高延迟影响持久化效率.5. 吞吐量瓶颈 四、Ceph作为持久化存储介质的问题1.…