【第三十六周】论文阅读02

news2026/3/16 21:03:38

文章目录摘要Abstract一、《Nougat: Neural Optical Understanding for Academic Documents》1. 摘要2. 介绍3. 相关工作4. 模型4.1 设置4.2 数据增强5. 数据集5.1 页面拆分5.2 真实标注伪影6. 核心贡献总结二、《A Survey of Token Compression for Efficient Multimodal Large Language Models》1. 压缩方法2. 多模态大语言模型2.1 纯文本Token压缩2.1 视觉token压缩三、《Towards Efficient Multimodal Large Language Models: A Survey on Token Compression》1. 多模态大型语言模型2. Token压缩3. 在哪里压缩令牌3.1 视觉编码器中的令牌压缩3.2 投影器中的令牌压缩3.3 大语言模型中的令牌压缩3.4 多模块中的token压缩总结摘要《Nougat Neural Optical Understanding for Academic Documents》核心聚焦学术文档的结构化信息提取旨在解决学术文档数字化过程中的信息提取效率与准确性问题。《A Survey of Token Compression for Efficient Multimodal Large Language Models》是首篇系统综述多模态大模型MLLMs长上下文令牌压缩的研究。按模态将压缩方法分为图像、视频、音频三类再依据核心机制细分为变换、相似性、注意力、查询导向四种全面梳理现有成果。《Towards Efficient Multimodal Large Language Models: A Survey on Token Compression》将压缩方法划分为视觉编码器、投影器、LLM 骨干网及混合压缩四类。深入分析了文本引导与纯视觉压缩、令牌合并与丢弃等压缩方式。AbstractThis week, I studied three papers:《Nougat: Neural Optical Understanding for Academic Documents》 focuses on structured information extraction from academic documents, aiming to improve the efficiency and accuracy of information extraction during the digitization of academic papers.《A Survey of Token Compression for Efficient Multimodal Large Language Models》is the first systematic survey on long-context token compression for Multimodal Large Language Models (MLLMs). It categorizes compression methods into image, video, and audio according to modality, and further classifies them into transformation-based, similarity-based, attention-based, and query-guided approaches based on their core mechanisms, providing a comprehensive review of existing work.《Towards Efficient Multimodal Large Language Models: A Survey on Token Compression》divides compression techniques into four categories: visual encoder, projector, LLM backbone, and hybrid compression. It also provides in-depth analysis of token compression schemes such as text-guided vs. pure visual compression, token merging, and token dropping.一、《Nougat: Neural Optical Understanding for Academic Documents》1. 摘要Nougat (学术文档的神经光学理解)一个基于视觉Transformer的端到端模型执行光学字符识别( Optical Character RecognitionOCR )任务的视觉转换器模型将学术文档PDF难以提取结构化和语义信息的页面图像转换为结构化的标记语言。通过弥合人类可读文档和机器可读文本之间的鸿沟提高数字时代科学知识的可访问性。2. 介绍存储在文本或发表在科技期刊上中的信息很难提取成任何其他格式。现有的光学字符识别( Optical Character RecognitionOCR )引擎无法理解图像中的单个字符和单词之间的关系。对于数学表达式字符的相对位置上标和下标至关重要。将学术研究论文转化为机器可读的文本也使得科学作为一个整体具有可获取性和可检索性。本文的主要贡献是·发布了一个能够将PDF转换为轻量级标记语言的预训练模型。·我们引入了一个管道来创建数据集用于将PDFs与源代码配对·我们的方法只依赖于页面的图像允许访问扫描的论文和书籍。3. 相关工作1数学表达式领域全卷积模型被各种RNN解码器模型成功地用于手写和打印公式。缺点只关注已经被裁剪好的、单独的公式图片。无法从文档中自动提取公式进行识别。2视觉文档理解VDU领域文本布局。通过使用Transformer架构对文本和布局信息进行联合建模来学习提取信息。LayoutLM模型使用掩膜版面预测任务来捕获不同文档元素之间的空间关系。注“掩膜版面预测”模型需要根据可见的文本以及所有文本的位置信息包括被掩盖词的位置来预测被掩盖的词是什么。GROBID能从PDF里解析出作者、标题、参考文献这些元数据“重点在书目数据”输出为结构化的XML文件。pdf2htmlEX能把PDF“翻译”成HTML网页尽可能保留原来的排版样式。无论是学术界的前沿方法LayoutLM还是工业界的实用工具GROBID和pdf2htmlEX在面对数学表达式的语义信息时都无能为力。4. 模型该架构是编码器-解码器Transformer架构整个这套流程基于Donut架构的实现。编码器Swin Transformer负责理解图像。它把输入的文档图像切分成许多固定大小的 patch图像块然后通过多层注意力机制提取出图像的视觉特征最终输出一组特征向量为图像的“语义摘要”。解码器负责写文本。解码器接收编码器输出的特征向量以自回归的方式一个接一个地生成token利用自注意力和交叉注意力分别关注输入序列和编码器输出的不同部分。注12自注意力关注“输入序列”。作用确保文本的连贯性和语法正确性。交叉注意力关注“编码器输出”。作用将文本生成与视觉信息对齐确保输入和输出内容是一致的。Donut Docment understanding transformer架构为基础。输入只有图像模型不需要任何与OCR相关的输入或模块文本被网络隐性识别纯视觉文本生成视觉编码器对输入的图片裁剪或填充确保所有输入的图片拥有相同的维度再从图像中学习所有必要信息。注隐性识别它是在整个端到端训练过程中自己学会了把图像中的文字笔画映射到对应的文本 token。理解是整体发生的而不是分步拆解的。4.1 设置模型的权重参数可以由预训练得到。transformer编码器的最大序列长度与处理的内容的数据量相关当数据量大时可以使用较长的文本序列。解码器mBART是一个专门为多语言和生成任务设计的Transformer解码器。mBART优势1更适合生成任务BART系列的预训练目标包括“去噪自编码”——即把打乱的文本恢复原状。这让它特别擅长生成连贯、准确的文本序列。210层解码器层提供了足够的容量来建模复杂的文本结构。在推理时使用贪婪解码逐令牌生成文本。贪婪解码在生成每个令牌时模型会计算所有可能令牌的概率分布然后选择概率最高的那一个作为输出。然后把这个令牌加入已生成的序列继续生成下一个。在训练时为了确保训练稳定性采用了较小的初始学习率并逐步衰减4.2 数据增强数据增强来提高泛化性往往是有益的。我们需要使用一些变换来模拟扫描文档的不完美和可变性。每个变换腐蚀、膨胀、高斯噪声…都有一个固定的概率被应用到给定的图像中。这些变换在Albumentations 库中实现。同时还通过随机替换令牌的方式对真实文本添加扰动。这样可以显著地减少崩溃成一个重复的循环。下图为对每次变化效果的概览随即替换令牌的方式目的不是“看模型能否还原正确的输出”而是故意给模型制造“错误”的上下文让它学会在推理时即使遇到错误也能保持正确生成而不是崩溃。5. 数据集主要训练集和测试集arXiv首先使用LaTeXML7对源文件进行处理并将其转换为HTML5文件后将其转换成轻量级标记语言。源码提供了最完整、最精确的语义信息尤其是数学公式可以生成高质量的“图像-标记语言”配对数据。它是模型学会理解复杂学术文档的主力。说明最终输出的轻量级标记语言“去除了噪音、统一了格式、保留了核心语义”的标准版LaTeX/文本。源文件编译后生成PDF文件。arXiv数据处理过程如下预训练辅助数据集PMCPDF文件XML文件方程和表被存储为图像。而遇到方程和表时模型只能看到图像但是看不到图片的内容当它试图根据这个图像去生成正确的LaTeX代码时它得到的“正确答案”却是[IMAGE]这样的占位符。IDLOCR文本且不包括文本格式。仅用于预训练用于教模型基础的扫描文档的OCR。为什么只能限制在预训练阶段因为正式训练阶段要求高质量、高精度的配对数据图像 ↔ 正确的标记语言。总结这些数据集的作用就是让模型能够准确地从“非结构化的文档图像”中理解并输出“结构化的文本”。5.1 页面拆分根据PDF 文件中每一页之间的分隔位置对标记文件进行拆分。编译过程中尽可能准确地将源码文本划分到每个 PDF 页面。为了实现准确拆分从 PDF 文件中直接提取的文本内容与LaTeX 源码中实际会显示出来的文字内容需要去除 LaTeX 命令、注释等只保留正文和公式中的文字部分进行匹配。PDF中的图形和表格可能与它们在源代码中的位置不对应。在LaTeX源码中图形和表格通常用\begin{figure}…\end{figure}或\begin{table}…\end{table}编写LaTeX编译时会根据排版算法图片表格自动浮动到页面顶部、底部或下一页以优化版面美观导致PDF与源码中位置不符。解决方法先移除再重插1识别并移除使用pdffigures2工具专门从PDF中提取图形和表格的开源工具识别出PDF中哪些区域是图形/表格并暂时从源码文本中移除。这样做的目的是防止浮动元素干扰页面分割。2匹配字幕将pdffigures2识别出的图表字幕论文中图形和表格配有的简短的文字说明与从XML文件PMC数据或LaTeXML处理结果中提取的字幕进行字符串模糊匹配Levenshtein距离确定哪个图表对应源码中的哪段代码。3重插在源码被成功分割到各个页面后再把属于该页的图表的标记语言表示添加到该页文本的末尾。文本匹配的优化Unicode转LaTeX从PDF提取的文本中数学符号可能已经变成Unicode字符而源码中的数学符号是用LaTeX命令写的比如\alpha、\beta、\neq。为了让两者能够更好地匹配需要用pylatexenc库把PDF文本中的Unicode数学符号转回对应的LaTeX命令。比如把α转成\alpha这样“α”和\alpha才能被认为是同一个东西。5.2 真实标注伪影数据瑕疵的来源来自 LaTeXML 预处理的伪影虽然 LaTeXML 的目的是标准化 LaTeX 源码但它本身也可能引入新的问题。后果模型可能会学习去“生成”一些在图像中并不存在的编号或符号。来自页面分割算法的错误页面分割算法基于 SVM 和模糊匹配并非完美。在某些情况下它可能会把前一页末尾的文本错误地划归到当前页或者把当前页末尾的单词切断比如只保留了半个单词。控制格式的命令字符可能会被错误地保留、丢失或与前后页混淆导致生成的标记语言与图像内容不符。来自 PMC 数据源的内在缺陷公式问题PMC 论文中的行内公式在 XML 中常常被简单地写成 Unicode 字符或斜体文本而行间公式display math和表格则经常被直接存为图片。后果当把 PMC 的 XML 解析成标记语言时这些公式和表格就会丢失或被忽略导致该页的“正确答案”中缺失了本该由模型从图像中识别出来的核心内容。实验结果证明训练的数据不完美训练出来的模型依然有效。6. 核心贡献总结1提出Nougat模型一个端到端可训练的编码器-解码器Transformer用于将文档页面图像转换为标记语言。2不依赖OCR仅凭页面图像即可识别文本和数学公式适用于数字PDF和扫描文档。3自动化数据集构建展示了如何无监督地从arXiv等来源生成“图像-源代码”配对数据。二、《A Survey of Token Compression for Efficient Multimodal Large Language Models》1. 压缩方法模态驱动机制驱动双维度压缩机制模态驱动图像以相邻块纹理与颜色相近的原理解决了固有的空间冗余视频以连续帧通常公用一个背景解决时空冗余问题音频处理无效音频段类似背景噪声无声音频解决时间冗余机制驱动基于变换的方法 (Transformation-based)总结通过 pooling池化、convolution卷积这类数学变换直接把Token的形态改变比如把一堆Token“压缩打包”成一个。优点能很好地保留原始信息的结构特征比如图片的空间布局。缺点压缩的比例不够灵活通常只能压缩到固定的倍数比如只能压缩到原来的1/4。基于相似度的方法 (Similarity-based)总结把长得像的Token合并或分组。就像KNN算法那样把相似的邻居聚成一类。优点处理起来比较灵活可以选择在模型的哪里进行压缩。缺点如果合并得太狠可能会丢失细节信息而且容易忽略掉原始的空间结构。基于注意力的方法 (Attention-based)——这也是你刚才问到的总结利用注意力矩阵的稀疏性把那些注意力分数低即不相关的Token移除。优点动态剪枝只保留跟当前任务最相关的Token可解释性强因为是根据注意力分数来的。缺点计算注意力分数这个操作本身可能跟现有的加速库如FlashAttention不兼容影响实际的加速效果。基于查询的方法 (Query-based)总结利用外部的查询来引导压缩只保留跟问题相关的Token。优点压缩后的信息非常精炼且相关特别适合处理视频等复杂任务。缺点不适合多轮对话。因为换了一个问题相关的Token就变了需要重新压缩效率不高。2. 多模态大语言模型通用多模态大语言模型( MLLM )框架由3个核心组件组成结构的图如下所示( 1 )模式特异性编码器( g )( 2 )投影仪模块( P )( 3 )预训练大语言模型( LLM )。token序列多模态tokens 文本tokens。多模态token通常构成了序列token的大部分。2.1 纯文本Token压缩提示压缩纯文本的大型语言模型中发展起来的Token压缩技术主要方法1上下文压缩与向量化如 AutoCompressor 将上下文压缩为摘要向量ICAE 将上下文编码到离散的记忆槽中。2Token/句子级别的精简如 SentenceVAE 用单个Token代表一个句子Selective Context 利用自信息量指标剔除信息量低的Token。3基于指令与查询的压缩LLMLingua 系列通过指令微调进行分层Token剪枝并引入LongLLMLingua通过语义密度排序来缓解位置衰减问题。QUITO 和 AdaComp 等方法则利用注意力分数或查询复杂度来筛选与查询相关的信息。4推理加速KV缓存压缩针对推理效率方法如 H2O 和 StreamingLLM 通过保留关键Token如“注意力汇聚点”来剪枝KV缓存从而加速生成。2.1 视觉token压缩视觉Transformer中为了解决空间冗余问题而开创的Token压缩技术主要技术路径包括1基于注意力分数的动态剪枝如 DynamicViT 和 EViT通过量化Token与分类标记的相关性动态地修剪掉低显著性的Token。说明“低显著性的token”通常就是指与特定锚点在分类任务中通常是 [CLS] token关联最小即注意力分数最低的那些token。[CLS] token 对其他所有token的注意力分数可以被解释为每个图像块对最终分类决策的“贡献度”或“显著性”。2基于相似度的Token合并如 ToMe利用相似度度量将语义相似的Token合并从而减少数量。3学习紧凑的Token集如 TokenLearner通过学习到的空间注意力机制从原始Token中生成一个更小的、信息丰富的Token集合。4知识蒸馏如 DeiT使用轻量级的“学生”头从压缩后的Token子集中预测类别标签。三、《Towards Efficient Multimodal Large Language Models: A Survey on Token Compression》1. 多模态大型语言模型多模态大语言模型工作流程1模式特异性编码器Visual Encoder—— 将像素变成特征输入一张由像素组成的原始图片。输出一个视觉特征序列。图像被分割每一块一个向量每个向量代表对应区域的原始视觉信息。2投影器模块Projector—— 将视觉特征对齐到语言世界输入上一步产生视觉特征向量。这些向量是在“视觉模型的空间”里。处理投影器的主要任务不是“转换二进制”而是“维度对齐”和“语义对齐”让视觉模型内向量被语言模型理解。输出视觉Token数量与视觉特征向量个数相同。3大语言模型LLM—— 统一理解与生成输入一个拼接起来的混合序列比如[文本Token1, 文本Token2, …, 视觉Token1, 视觉Token2, …, 视觉Token256]输出根据任务模型可以输出文本也可以输出其他模态的信息。2. Token压缩随着序列长度n的增加注意力机制中的二次复杂度项n2d迅速增长导致了令人望而却步的计算开销。二次计算复杂度自然推动了token压缩技术的发展其目的是在保持必要的视觉和文本语义的同时减少MLLM中的总上下文长度从而在不显著降低模型性能的情况下实现计算效率。当视觉token超过文本token则选择压缩视觉token常见视觉token产生的冗余有两种( 1 )视觉内冗余。视觉内容内在地包含着冗余信息。例如图像中相邻块纹理与颜色相近的视频中连续帧通常共用一个背景音频中背景噪声无声音频( 2 )跨模态冗余。关注的是视觉内容与当前文本任务的相关性。任务可能只和视觉内容中某一部分相关如一张多动物图片中的某一个动物。此时通过利用文本信息可以选择性地只保留那些与特定任务需求相关的视觉标记。3. 在哪里压缩令牌按压缩位置分类视觉编码器内压缩分为内部压缩如注意力机制和外部压缩如图像特征后处理。投影器内压缩包括基于变换、查询和重要性驱动的压缩方法。LLM内压缩分为预填充阶段和解码阶段压缩。多模块协同压缩如跨模块协作和多阶段渐进压缩。3.1 视觉编码器中的令牌压缩1编码器内部压缩在视觉编码器内部进行令牌丢弃或合并利用相似性、注意力或启发式评分选择重要令牌包括视觉令牌丢弃、合并、混合策略及多尺度压缩。2编码器外部压缩在视觉编码器输出后、投影器前进行压缩。这里的压缩通过度量视觉-视觉或视觉-文本表征之间的语义相关性来减少视觉标记的数量分为纯视觉压缩与文本引导压缩讨论注意力偏置问题、极端压缩及令牌恢复机制。①纯视觉压缩仅基于视觉特征本身的相关性进行压缩不依赖任何文本输入。补充1VisionZip中的“重要性估计”和“代表性约束”重要性估计给每个视觉令牌打分判断它包含的信息量有多大。得分高的令牌被认为是“重要”的需要优先保留。代表性约束在挑选令牌时不仅要求每个令牌本身重要还要求整个被选中的令牌集合能够覆盖图像中不同的内容避免只挑出同一类信息。2LLaVA-STF中的“跨层特征拼接”不同层蕴含不同特征浅层更关注细节特征比如边缘、颜色、纹理。深层更关注语义特征比如这个区域是什么物体狗、猫、车。深层特征经过了高度抽象可能会丢失一些细节信息。跨层特征拼接的含义LLaVA-STF不再只取最后一层的输出作为视觉特征而是从多个不同层比如第12层、第18层、第24层中提取出对应的视觉令牌。然后它把这些来自不同层的令牌特征向量拼接起来。假设每一层输出的特征维度是768维它从三个层各取一个向量拼在一起就变成了一个2304维的向量。这个新拼接出来的向量既包含了来自浅层的细节纹理信息也包含了来自深层的语义类别信息。3“低通滤波”图片可以分为低频和高频低频为图片中平缓的地方如大面积色块背景等高平则更为剧烈如边缘噪点等为什么可以用作压缩①高频细节虽然重要但通常占用大量的数据量而且很多高频信息比如不同背景纹理的细微差别对于模型理解图像的核心语义这是什么物体可能是冗余的。②通过低通滤波Fourier-VLM可以有效去除这些高频冗余得到一个更“平滑”、更“干净”的视觉表示。然后再将这个处理过的信号从频域映射回原始的令牌空间此时的令牌数量可能已经减少或者每个令牌的信息密度变得更高。方法存在的问题依赖CLS令牌的注意力分数选择重要令牌但是这种注意力机制存在偏置倾向于选择显著区域而忽略全局上下文HoloV提出解决方案通过引入全局视觉上下文平衡前景与背景令牌②文本引导压缩利用文本提示如用户问题提供的语义先验只保留与任务相关的视觉令牌3.2 投影器中的令牌压缩基于变换的压缩使用池化、像素重组、卷积等操作直接减少令牌数。基于查询的压缩通过可学习查询向量如Q-Former与视觉特征交互蒸馏出紧凑表示。基于注意力机制的压缩基于相似性、显著性或其他指标评估令牌重要性选择性保留或合并。3.3 大语言模型中的令牌压缩当用户输入一张图和一个问题模型需要先一次性处理所有输入的令牌包括文本指令和图像令牌生成第一轮推理所需的Key-Value缓存。这个阶段被称为预填充阶段。预填充阶段的压缩包括四种方法1基于重要性通过某种指标通常是注意力分数判断哪个视觉令牌对当前任务更重要只保留分数最高的那一部分。存在问题注意力偏置由于位置编码的影响排在序列后面的视觉令牌更容易获得高注意力分数这可能导致模型忽略了前面区域的重要信息。2可学习模块在模型中插入一些小型的、可训练的神经网络模块。通过训练学会判断哪些令牌重要、以及当前输入应该压缩到什么程度。3令牌合并多个语义相似的视觉令牌融合成一个新的令牌4融合通过交叉注意力机制让文本令牌主动去“检索”或“吸收”视觉信息。即查询为一组序列键值为一组序列根据查询对所有键值信息进行检索找到有效键值。3.4 多模块中的token压缩多模块token压缩方法本质上是结合单模块技术构建的应关注组件间协调的压缩并将其组织为一个多阶段过程以最大限度地提高整体效率和表示质量。两种新兴的设计范式1多模块协同压缩核心逻辑跨越边界利用后端LLM的信息来指导前端Encoder/Projector的压缩。运作方式文本引导这是最典型的协同。利用用户的问题文本Token作为先验知识去“检索”或“吸收”视觉信息。动态权重后端模型告诉前端哪些区域重要前端据此重新加权或丢弃令牌。目的消除跨模态冗余确保保留的Token不仅包含视觉信息还必须与当前任务高度相关。2多阶段渐进压缩核心逻辑采用由粗到精Coarse-to-Fine的策略层层递减。运作方式Token在流水线的不同位置被重复筛选。例如先在视觉编码器端进行初步去重经过投影器后再在大语言模型LLM的预填充阶段进行二次精炼。目的最大程度减轻长序列带来的计算负担特别是应对注意力机制的二次复杂度总结1《Nougat Neural Optical Understanding for Academic Documents》为学术文档处理提供了高效解决方案突破了传统 OCR 在公式、复杂排版场景下的局限。2《A Survey of Token Compression for Efficient Multimodal Large Language Models》填补了 MLLMs 令牌压缩领域的系统性分类空白揭示了不同模态冗余特性与压缩方法的适配关系。3《Towards Efficient Multimodal Large Language Models: A Survey on Token Compression》提供了实用的压缩策略弥补了现有研究在实际应用中的不足并提出任务与内容感知自适应压缩等方向。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2417152.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！