2025_NIPS_AnomalyCoT: A Multi-Scenario Chain-of-Thought Dataset for Multimodal Large Language Model

news2026/4/2 6:08:34

文章核心总结与创新点主要内容文章针对现有工业异常检测（IAD）数据集场景单一、缺乏严谨推理过程的问题，提出首个多模态思维链（CoT）数据集AnomalyCoT。该数据集包含37,565个IAD样本，整合13个公开数据集及自建数据，覆盖59类场景，统一了异常判别与缺陷分类两大核心任务，每个样本均提供含异常区域精准坐标的可解释推理过程。通过对主流多模态大语言模型（MLLMs）的直接评估与LoRA、全参数微调实验，验证了数据集的有效性——Gemini-2.0-flash直接评估准确率达59.6%，Llama 3.2-Vision经LoRA微调后准确率高达94.0%，微调模型平均准确率提升36.5%，且在跨数据集验证中表现出强泛化能力。创新点首个IAD领域多模态CoT数据集：填补现有数据集缺乏严谨推理过程的空白，提供异常区域坐标与逻辑分析，提升检测可靠性。多场景覆盖与任务统一：整合多源数据扩展场景多样性，将异常判别与缺陷分类整合为端到端任务，适配实际工业需求。系统化数据构建流程：结合人工标注、语义提示与规则过滤，生成逻辑严谨的CoT数据，确保数据质量。全面评估与微调验证：验证了MLLMs在IAD任务中的潜力，证实CoT数据与坐标信息对模型性能提升的关键作用，部分微调模型性能超越人类专家。英文原文与中文翻译（Markdown格式）Abstract工

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2430161.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！