多模态数据提取：微调与少样本提示

news2026/4/29 8:34:51

这是一篇偏实践向的记录，主要整理我在「用多模态大模型做发票数据结构化提取」过程中踩过的坑、验证过的方案，以及一些比较稳妥的落地思路。整体目标只有一个：让模型稳定输出可直接用的 JSON，而不是“看起来很聪明”的一大段解释。背景与目标实际业务里，我们经常会遇到这种需求：输入：一张发票图片（拍照 / 扫描，质量参差不齐）输出：结构化业务数据，比如供应商名称发票号、日期明细行（商品名、数量、单位、金额等）格式要求：标准 JSON，可直接进数据库或走 RPA传统 OCR + 规则方案在版式复杂、字段漂移时非常脆弱，而多模态大模型（VLM）正好补上了这一块：能同时理解图像和指令能在“看懂”的基础上做结构化输出我们主要用以下模型做测试：Gemini 1.5 Pro、GPT-4o、Llama‑3.2‑Vision、Qwen2‑VL 等。多模态微调数据1. 一个典型的数据样例下面这个结构，基本就是多模态微调或评测时最小且有效的单元：{"contents":[{"role":"user","parts":[{"fileData":{"mimeType":"image/jpeg","fileUri":"/static/example_invoice.jpe

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2565043.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！