【AI论文】论文转海报：迈向从科学论文到多模态海报的自动化生成

摘要：学术海报生成是科学交流中一项关键但具有挑战性的任务，需要将长上下文交织的文档压缩成单一的、视觉上连贯的页面。为了应对这一挑战，我们引入了第一个用于海报生成的基准和度量套件，该套件将最近的会议论文与作者设计的海报配对，并评估了以下方面的输出：（i）视觉质量-与人类海报的语义对齐，（ii）文本连贯性-语言流畅性，（iii）整体评估-由VLM-as-judge评分的六个细粒度的美学和信息标准，特别是（iv）论文测验-海报传达核心论文内容的能力，由VLM回答生成的测验来衡量。基于这一基准，我们提出了PosterAgent，一个自上而下、视觉闭环的多智能体管道：（a）解析器将论文提取到一个结构化的资产库中； (b)规划器将文本视觉对排列成二叉树布局，保留阅读顺序和空间平衡；并且(c)画家-评论者循环通过执行渲染代码并使用VLM反馈来消除溢出并确保对齐，从而优化每个面板。在我们的综合评估中，我们发现GPT-4o输出虽然乍一看很有吸引力，但往往表现出文本噪音大、PaperQuiz分数低的问题，我们发现读者参与度是主要的审美瓶颈，因为人类设计的海报在很大程度上依赖于视觉语义来传达意义。我们的完全开源变体（例如基于Qwen-2.5系列）在几乎所有指标上都优于现有的4o驱动的多代理系统，同时使用的令牌减少了87%。它将一份22页的论文转化为最终确定但可编辑的.pptx海报——所有这些只需0.005美元。这些发现为下一代全自动海报生成模型指明了方向。代码和数据集可在Github。Huggingface链接：Paper page，论文链接：2505.21497

一、研究背景和目的

研究背景：

学术海报在科学交流中扮演着至关重要的角色，它们能够在短时间内向会议参与者传达论文的核心发现。然而，创建高质量的学术海报是一项既耗时又具有挑战性的任务，尤其是当需要将长篇、多模态的论文内容压缩到一张视觉上连贯的页面上时。随着自动化技术的发展，利用人工智能技术来辅助甚至自动生成学术海报成为了一个研究热点。现有的自动化工具，如PPTAgent和D2S，已经在幻灯片生成方面取得了显著进展，但海报生成由于其独特的需求和挑战，如更长的上下文处理、紧密的图文交织以及严格的布局约束，仍然是一个未被充分探索的领域。

研究目的：

本文旨在通过引入Paper2Poster基准和度量套件，系统地评估并推动学术海报自动化生成技术的发展。具体目标包括：

构建基准：创建一个包含近期会议论文及其作者设计海报的数据集，为海报生成任务提供标准化的测试平台。
定义度量标准：提出一套综合的评估指标，涵盖视觉质量、文本连贯性、整体美学和信息质量，以及通过VLM（视觉语言模型）模拟读者理解能力的PaperQuiz测试。
开发模型：提出PosterAgent，一个自上而下、视觉闭环的多智能体框架，用于将长篇论文转化为结构化的学术海报。
评估性能：通过全面的实验评估，比较不同模型在海报生成任务上的表现，分析现有技术的优缺点。
探索未来方向：基于实验结果，指出当前研究的局限性，并提出未来工作的方向。

二、研究方法

1. 数据集构建：

本文采用了POSTERSUM数据集，该数据集包含了来自ICML、NeurIPS和ICLR等顶级AI会议的论文-海报对。为了确保数据集的质量和多样性，本文进行了严格的筛选和过滤，最终构建了一个包含100对论文-海报的数据集，覆盖了计算机视觉、自然语言处理和强化学习等多个领域。

2. 度量标准定义：

为了全面评估海报生成的质量，本文提出了以下四个维度的度量标准：

视觉质量：通过CLIP图像嵌入计算生成海报与人类设计海报之间的视觉相似性，以及图表与对应文本部分之间的相关性。
文本连贯性：使用Llama-2-7b-hf模型计算海报文本的困惑度（PPL），以评估语言的流畅性和可预测性。
整体评估：通过VLM作为评委，对海报的美学和信息质量进行细粒度的评分，涵盖元素质量、布局平衡、吸引力、清晰度、内容完整性和逻辑流程六个方面。
PaperQuiz：设计了一套基于VLM的测验，通过让VLM回答从论文中生成的多项选择题，来评估海报传达核心论文内容的能力。

3. PosterAgent框架：

PosterAgent是一个多智能体框架，包括三个主要模块：

解析器（Parser）：将论文全文PDF转换为结构化的资产库，包括文本摘要和提取的图表。
规划器（Planner）：将文本和视觉资产匹配并排列成二叉树布局，同时考虑内容长度和阅读顺序。
画家-评论者循环（Painter-Commenter Loop）：画家模块将文本-图表对转换为可执行的代码指令，并渲染面板图像；评论者模块则是一个VLM，通过提供针对性的反馈来优化面板布局，避免文本溢出和确保对齐。

4. 实验设置：

本文在Paper2Poster基准上评估了多种基线方法和PosterAgent变体，包括Oracle方法（如原始论文和作者设计的海报）、端到端方法（如GPT-4o直接生成海报）、多智能体方法（如OWL-4o和PPTAgent-4o）以及PosterAgent的不同变体（如PosterAgent-4o和PosterAgent-Qwen）。评估过程中记录了每种方法的视觉质量、文本连贯性、VLM评估得分和PaperQuiz得分。