论文笔记：LayoutNUWA: Revealing the Hidden Layout Expertise of Large Language Models

news2026/3/16 15:07:48

iclr 2024 reviewer 评分 568

图形布局生成+大模型

1 intro

现有方法主要将布局生成视为一个数值优化任务，专注于量化方面，同时忽略了布局的语义信息，如各布局元素之间的关系。
论文提出了LayoutNUWA，这是第一个将布局生成视为代码生成任务的模型，以增强语义信息并利用大型语言模型（LLMs）的隐藏布局专长。
- 开发了一种代码指令调整（CIT）方法，包括三个相互连接的模块：
  - 1）代码初始化（CI）模块量化数值条件并将其初始化为带有策略性放置的掩码的HTML代码；
  - 2）代码完成（CC）模块利用LLMs的格式化知识填补HTML代码中的掩码部分；
  - 3）代码渲染（CR）模块将完成的代码转换为最终的布局输出，确保一个高度可解释和透明的布局生成过程，直接将代码映射到可视化布局。

布局生成任务旨在生成一个组织良好的布局
- N 代表布局中的元素数量
- 每个元素 si = (ci, xi, yi, wi, hi) 包括以下组件
  - ci 是类别
  - xi 和 yi 指示中心位置
  - wi 和 hi 分别代表宽度和高度
- 论文关注条件布局生成任务，其中 si 的部分组件被 M 掩码，完整布局 S 应由模型 fθ 预测，条件是剩余组件 S\M
以往的研究将每个元素 si 视为一系列数值，例如（0, 10, 20, 25, 30），并训练模型直接生成这些值
- ——>这种方法忽略了组件的语义信息，从而限制了模型对布局语义的理解
——>论文提出了一个新的问题定义，将输入 S\M 和输出 S 转换成代码语言，并将布局生成任务视为代码生成任务
与方程式 1 相比，方程式 2 具有以下三个优点：
- 语义洞察：通过将数值转换为代码语言，模型可以更好地捕捉布局不同组件之间的语义关系。
- 利用 LLM：通过使用代码语言，模型可以进一步利用大型语言模型（LLMs）的知识，从而提高生成布局的质量。
- 模型可扩展性：代码语言比数值具有更强的表达能力，这允许为布局元素添加更多属性。

代码指令调整（CIT）三个模块：
- （1）代码初始化模块将布局转换为带动态模板的掩码代码语言；
- （2）代码完成模块将掩码代码输入到 LLMs 以生成完整代码；
- （3）代码渲染模块直接将代码渲染为最终的图形布局

为了构建布局生成任务的条件输入，论文利用 LLMs 的掩码标记来代表掩码值 M，并让模型预测 HTML 代码中的掩码值
考虑到几乎所有 LLMs 都遵循自回归生成方式，这对布局生成任务带来了显著的限制
- 因为模型应该在不同元素顺序下预测相同的布局
- ——>设计了一种自洽策略，随机置换布局中输入元素的顺序
为了适应不同条件的布局生成任务，在同一布局上进行了多任务建模，利用各种条件并实施联合损失。给定排列次数 K【不同元素的给定顺序】，元素数N【一个页面的元素数量】和任务数 T【任务见4.2】，每个布局 S 的联合损失，记为 L(·)，可以写为：

使用四个指标来全面评估生成结果，包括 Frechet Inception Distance（FID）、最大交并比（mIoU）、对齐（Align.）和重叠

在三个条件布局生成任务上评估 LayoutNUWA，包括类别到大小和位置（C → S+P）任务，类别和大小到位置（C+S → P）任务，以及完成任务。
- C → S+P 任务要求模型根据其类别预测元素的位置和大小。
- C+S → P 任务，模型根据元素的大小和类别预测位置。
- 在完成任务中，元素的大小和位置值随机掩盖高达 80%，模型使用剩余值预测整个布局

使用两个 7B LLMs 实现 LayoutNUWA：LLaMA2（L2）和 CodeLLaMA（CL）
在两种设置下训练 LayoutNUWA：
- （1）特定领域（DS）设置，模型在不同数据集上训练；
- （2）领域不可知（DA）设置，模型在包括 RICO、PubLayNet 和 Magazine 的所有三个数据集上训练