2025_NIPS_AnomalyCoT: A Multi-Scenario Chain-of-Thought Dataset for Multimodal Large Language Model
文章核心总结与创新点主要内容文章针对现有工业异常检测(IAD)数据集场景单一、缺乏严谨推理过程的问题,提出首个多模态思维链(CoT)数据集AnomalyCoT。该数据集包含37,565个IAD样本,整合13个公开数据集及自建数据,覆盖59类场景,统一了异常判别与缺陷分类两大核心任务,每个样本均提供含异常区域精准坐标的可解释推理过程。通过对主流多模态大语言模型(MLLMs)的直接评估与LoRA、全参数微调实验,验证了数据集的有效性——Gemini-2.0-flash直接评估准确率达59.6%,Llama 3.2-Vision经LoRA微调后准确率高达94.0%,微调模型平均准确率提升36.5%,且在跨数据集验证中表现出强泛化能力。创新点首个IAD领域多模态CoT数据集:填补现有数据集缺乏严谨推理过程的空白,提供异常区域坐标与逻辑分析,提升检测可靠性。多场景覆盖与任务统一:整合多源数据扩展场景多样性,将异常判别与缺陷分类整合为端到端任务,适配实际工业需求。系统化数据构建流程:结合人工标注、语义提示与规则过滤,生成逻辑严谨的CoT数据,确保数据质量。全面评估与微调验证:验证了MLLMs在IAD任务中的潜力,证实CoT数据与坐标信息对模型性能提升的关键作用,部分微调模型性能超越人类专家。英文原文与中文翻译(Markdown格式)Abstract工
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2430161.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!