多模态数据提取:微调与少样本提示
这是一篇偏实践向的记录,主要整理我在「用多模态大模型做发票数据结构化提取」过程中踩过的坑、验证过的方案,以及一些比较稳妥的落地思路。整体目标只有一个:让模型稳定输出可直接用的 JSON,而不是“看起来很聪明”的一大段解释。背景与目标实际业务里,我们经常会遇到这种需求:输入:一张发票图片(拍照 / 扫描,质量参差不齐)输出:结构化业务数据,比如供应商名称发票号、日期明细行(商品名、数量、单位、金额等)格式要求:标准 JSON,可直接进数据库或走 RPA传统 OCR + 规则方案在版式复杂、字段漂移时非常脆弱,而多模态大模型(VLM)正好补上了这一块:能同时理解图像和指令能在“看懂”的基础上做结构化输出我们主要用以下模型做测试:Gemini 1.5 Pro、GPT-4o、Llama‑3.2‑Vision、Qwen2‑VL 等。多模态微调数据1. 一个典型的数据样例下面这个结构,基本就是多模态微调或评测时最小且有效的单元:{"contents":[{"role":"user","parts":[{"fileData":{"mimeType":"image/jpeg","fileUri":"/static/example_invoice.jpe
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2565043.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!