多模态大语言模型arxiv论文略读（六十二）

请添加图片描述

MileBench: Benchmarking MLLMs in Long Context

➡️ 论文标题：MileBench: Benchmarking MLLMs in Long Context
➡️ 论文作者：Dingjie Song, Shunian Chen, Guiming Hardy Chen, Fei Yu, Xiang Wan, Benyou Wang
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen, Shenzhen Research Institute of Big Data
➡️ 问题背景：尽管多模态大语言模型（Multimodal Large Language Models, MLLMs）在各种多模态任务中表现出色，但它们在处理长文本和多图像任务时的实际效果尚不明确。现有的基准测试主要集中在单图像和短文本样本上，未能全面反映现实世界应用的复杂性和多样性。此外，这些基准测试在评估多图像任务时，要么限制图像数量，要么仅关注特定任务，如时间序列描述，这可能导致忽视MLLMs在长文本情境下的幻觉问题。
➡️ 研究动机：为了弥补现有基准测试的不足，研究团队开发了MILEBENCH，这是首个专门设计用于测试MLLMs在多模态长文本情境下能力的基准测试。MILEBENCH旨在系统评估MLLMs在处理长文本和多图像任务时的适应能力和任务完成能力，特别是涉及多轮对话、动作预测、3D空间导航和理解长文档等任务。
➡️ 方法简介：MILEBENCH由两个主要部分组成：现实评估（Realistic Evaluation）和诊断评估（Diagnostic Evaluation）。现实评估侧重于评估MLLMs在多模态长文本情境下的理解、整合和推理能力；诊断评估则侧重于评估MLLMs在长文本情境中检索信息的能力，包括“针在草堆中”（Needle in a Haystack）和图像检索任务。研究团队从21个现有或自建的数据集中收集了6,440个多模态长文本样本，每个样本平均包含15.2张图像和422.3个单词。
➡️ 实验设计：研究团队评估了22个模型，包括5个闭源模型和17个开源模型。实验结果表明，闭源模型GPT-4o在诊断评估和现实评估中表现最佳，分别达到了99.4%和60.3%的准确率。相比之下，大多数开源MLLMs在长文本情境任务中表现不佳，平均得分仅为10.1%。实验还发现，随着图像数量的增加，开源MLLMs的性能下降更为明显，而闭源模型的性能下降幅度较小。

Hallucination of Multimodal Large Language Models: A Survey

➡️ 论文标题：Hallucination of Multimodal Large Language Models: A Survey
➡️ 论文作者：Zechen Bai, Pichao Wang, Tianjun Xiao, Tong He, Zongbo Han, Zheng Zhang, Mike Zheng Shou
➡️ 研究机构: National University of Singapore, AWS Shanghai AI Lab, Amazon Prime Video
➡️ 问题背景：多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种多模态任务中展现了显著的进步和卓越的能力，如图像描述、视觉问答等。然而，这些模型在生成输出时经常出现与视觉内容不一致的现象，即“幻觉”（hallucination），这对其实际应用的可靠性和可信度构成了重大挑战。
➡️ 研究动机：尽管多模态大语言模型（MLLMs）在多模态任务中表现出色，但它们生成的输出经常与视觉内容不一致，这种现象被称为“幻觉”。为了深入理解幻觉的成因，并探索有效的检测和缓解方法，研究团队对MLLMs中的幻觉现象进行了全面的分析和综述，旨在为未来的研究和应用提供有价值的见解和指导。
➡️ 方法简介：研究团队对MLLMs中的幻觉现象进行了系统性的分析，包括幻觉的成因、评估基准、度量标准以及缓解策略。研究涵盖了数据、模型、训练和推理四个方面的成因，并提出了针对这些成因的缓解方法。此外，研究还提供了详细的幻觉分类和评估基准，以帮助研究人员更好地理解和评估MLLMs中的幻觉现象。
➡️ 实验设计：研究团队通过分析大量文献，总结了幻觉的多种成因，并提出了相应的评估基准和度量标准。研究还讨论了现有的缓解幻觉的方法，包括数据增强、模型改进、训练策略和推理干预等。通过这些方法，研究旨在为提高MLLMs的可靠性和可信度提供系统性的指导。

What Drives Performance in Multilingual Language Models?

➡️ 论文标题：What Drives Performance in Multilingual Language Models?
➡️ 论文作者：Sina Bagheri Nezhad, Ameeta Agrawal
➡️ 研究机构: Portland State University
➡️ 问题背景：多语言大型语言模型（MLLMs）在自然语言处理领域取得了显著进展，能够支持多种语言的应用，如机器翻译和情感分析。然而，这些模型在不同语言上的表现存在差异，尤其是在资源贫乏的语言上。理解这些模型在不同语言上的表现对于进一步发展至关重要。
➡️ 研究动机：尽管已有研究探讨了影响MLLMs性能的因素，但这些研究通常局限于少数语言、特定任务或训练范式。此外，大多数研究未能区分模型在预训练中见过的语言（SEEN）、完全新的语言（UNSEEN）以及评估数据集中所有语言（ALL）。本研究旨在通过全面分析不同模型和训练设置下的多种因素，为开发更有效和公平的多语言NLP系统提供深入见解。
➡️ 方法简介：研究团队评估了6种MLLMs，包括掩码语言模型、自回归模型和指令调优的大型语言模型，使用SIB-200数据集进行文本分类任务。研究考虑了四个关键因素：预训练数据量、资源可用性水平、语言家族和脚本类型。通过决策树分析，研究团队探讨了这些因素对模型性能的影响。
➡️ 实验设计：实验在SIB-200数据集上进行，该数据集涵盖了204种语言。研究设计了三种训练场景：零样本、两样本上下文学习（ICL）和完全监督。实验分析了不同模型在不同语言类别（SEEN、UNSEEN、ALL）下的表现，重点关注预训练数据量、资源可用性、语言家族和脚本类型等因素的影响。

TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains

➡️ 论文标题：TableVQA-Bench: A Visual Question Answering Benchmark on Multiple Table Domains
➡️ 论文作者：Yoonsik Kim, Moonbin Yim, Ka Yeon Song
➡️ 研究机构: NAVER Cloud AI
➡️ 问题背景：当前的多模态大语言模型（Multi-Modal Large Language Models, MLLMs）在处理表格视觉问答（TableVQA）任务时，面临缺乏合适的评估数据集的问题。现有的表格问答（TableQA）数据集大多不包含图像或问答对，这限制了它们在TableVQA任务中的应用。因此，构建一个包含图像和问答对的TableVQA数据集对于评估MLLMs在TableVQA任务中的表现至关重要。
➡️ 研究动机：为了填补这一空白，研究团队构建了一个新的TableVQA基准数据集——TableVQA-Bench。该数据集通过整合现有的表格问答（TableQA）和表格结构识别（TSR）数据集，生成了包含图像、HTML文本表示和问答对的综合数据集。研究旨在评估不同MLLMs在TableVQA任务中的表现，并探讨视觉输入与文本输入在性能上的差异。
➡️ 方法简介：研究团队提出了一个系统的方法，通过应用样式表或使用表格渲染系统生成表格图像，并利用大型语言模型（LLM）生成问答对，构建了TableVQA-Bench。该数据集包含1,500个问答对，涵盖了多个表格领域。研究还比较了不同MLLMs在TableVQA-Bench上的表现，并分析了视觉查询数量对模型性能的影响。
➡️ 实验设计：实验在TableVQA-Bench上进行，评估了多个商业和开源MLLMs的性能。实验设计了不同输入格式（视觉和文本）的比较，以及不同模型在处理视觉输入时的性能差异。此外，研究还探讨了两阶段推理方法，即先从图像中提取HTML，再使用LLM进行问答任务，以评估其对模型性能的影响。实验结果表明，GPT-4V在所有模型中表现最佳，但视觉输入的性能普遍低于文本输入。

OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning

➡️ 论文标题：OmniDrive: A Holistic LLM-Agent Framework for Autonomous Driving with 3D Perception, Reasoning and Planning
➡️ 论文作者：Shihao Wang, Zhiding Yu, Xiaohui Jiang, Shiyi Lan, Min Shi, Nadine Chang, Jan Kautz, Ying Li, Jose M. Alvarez
➡️ 研究机构: 北京理工大学、NVIDIA、华中科技大学
➡️ 问题背景：尽管多模态大语言模型（MLLMs）在端到端自动驾驶中的应用展现了强大的推理能力，但将这些能力从2D理解扩展到3D空间的复杂性仍然是一个重大挑战。3D空间的理解对于自动驾驶车辆（AVs）做出明智决策、预测未来状态和安全互动至关重要。此外，处理多视角高分辨率视频输入的需求也是当前2D MLLM架构难以克服的问题。
➡️ 研究动机：为了解决上述挑战，研究团队提出了OmniDrive，这是一个全面的框架，旨在实现3D感知、推理和规划的强对齐。OmniDrive不仅提出了一个新颖的3D MLLM架构，还引入了一个新的基准测试OmniDrive-nuScenes，该基准测试涵盖了全面的视觉问答（VQA）任务，包括场景描述、交通规则、3D定位、反事实推理、决策和规划。
➡️ 方法简介：OmniDrive的核心是一个基于Q-Former的3D MLLM架构，该架构通过将多视角图像特征压缩为稀疏查询，然后将这些查询与3D位置编码结合，输入到大型语言模型中，从而实现3D空间理解。此外，OmniDrive-nuScenes基准测试通过模拟决策和轨迹来评估模型的反事实推理能力，以及在复杂3D场景中的长期规划能力。
➡️ 实验设计：研究团队在nuScenes数据集上进行了广泛的实验，验证了OmniDrive在3D场景中的优秀推理和规划能力。实验包括了场景描述、交通规则理解、3D定位、反事实推理、决策和规划等多个任务，通过多种评估指标（如METEOR、ROUGE、CIDEr、碰撞率和道路边界交叉率等）来全面评估模型的性能。