文档基础模型引领文档智能走向多模态大一统

news2025/7/18 8:20:07

编者按:自2019年以来,微软亚洲研究院在文档智能领域进行了诸多探索,开发出一系列多模态任务的文档基础模型 (Document Foundation Model),包括 LayoutLM (v1、v2、v3) 、LayoutXLM、MarkupLM 等。这些模型在诸如表单、收据、发票、报告等视觉富文本文档数据集上都取得了优异的表现,获得了学术界和产业界的广泛认可,并已应用在包括 Azure Form Recognizer、AI Builder、Microsoft Syntex 等在内的微软产品中,赋能企业和机构的数字化转型。


你是否曾经在核销发票信息时,被涵盖抬头、开票日期、商品内容数量、单价、金额等多种信息且形式不一的发票搞得无从下手?处理重要的商业合同,小心翼翼,生怕弄错一位小数点,造成不可估量的经济损失?面对海量的简历,劳心劳力一一过目,不想错过每一位人才?除此之外,保险保单、业务报表、商务邮件、发货订单…… 商业活动中还有各种各样的文档需要处理。

随着企业数字化转型,各种文档、图表、图像内容的数字化已经成为企业一项重要的工作。但是面对大量质量参差不齐的扫描文件,版式各异的网页、电子文档,人工操作不仅费时费力、效率低,还容易出错,如何才能高效地提取、整理和分析文档中的信息?幸运的是,文档智能 (Document AI) 技术的出现将员工和企业从重复繁锁的文档数字化工作中解放了出来。

常见的商业文档示例(从左至右):表单、收据、发票、报告

文档智能是通过计算机进行自动阅读、理解以及分析商业文档的过程,是自然语言处理 (NLP) 和计算机视觉 (CV) 交叉领域的重要研究方向。深度学习技术的普及极大地推动了文档智能的发展,以文档版面分析、文档信息抽取、文档视觉问答以及文档图像分类等为代表的文档智能任务均有显著的性能提升,该技术也已经在帮助企业节约运营成本、提高员工效率、降低人为错误等方面发挥了重要作用。

从文本到多模态,文档智能模型逐步进化解锁新技能

微软亚洲研究院对文档智能的系列研究始于2019年。在对深度学习进行深入研究时,研究员们希望可以从公开的文档中抽取有用的信息,建立知识库,以支持深度学习模型的预训练任务。然而来自真实世界的文档并不是结构化的数据,如何从杂乱的文档中提取出结构化的文本信息就成了研究员们要解决的第一个问题。

对此,微软亚洲研究院提出了统一预训练语言模型 UniLM,它既能阅读文档又能自动生成内容。UniLM 模型在抽象摘要、生成式问答和语言生成数据集的抽样领域均取得了优异的成绩。同时,研究员们还将模型从英文扩展到了更多语言,推出了 InfoXLM 模型。这些只针对文本信息处理的模型方法,满足了当时研究工作的需求,然而在现实场景中,文档内容并不是只有文字,还包含各种各样的字体、颜色、下划线等布局和风格信息。

2019年底,微软亚洲研究院结合 NLP 和 CV 技术,推出了通用文档理解预训练模型 LayoutLM,并第一次在文档级预训练中将文本与布局信息联合训练,其在 IIT-CDIP Test Collection 1.0 数据集约一千一百万张的扫描文档图像上进行了预训练,该数据集包含信件、备忘录、电子邮件、表格、票据等各式各样的文档类型。LayoutLM 在表格理解、票据理解、文档图像分类等任务的实验上获得了优于其它模型的结果,并有效改善了以往模型在具体场景中没有利用大规模无标注数据,且模型难以泛化的问题。随后在 LayoutLMv2 版本中,研究员们将视觉特征信息融入到预训练过程中,提升了模型的图像理解能力,从而将文本、布局和图像信息统一在一个框架中共同建模训练,使用一个模型就能更好地学习到不同模态之间的关联。

微软亚洲研究院文档智能系列研究发展历程

而为了满足不同用户对多语言的需求,研究员们在 LayoutLMv2 的基础上进一步提出了多语言文档理解任务的多模态预训练模型 LayoutXLM。LayoutXLM 模型不仅从各种不同语言的文档模板、布局、格式中获得了文本和视觉信号,同时还从文本、视觉和语言学的角度利用了局部不变的特性。除了在将近200种语言上进行了预训练外,为了更精准地评估多语言文档理解预训练模型的性能,研究员们还创建了多语言文档理解数据集 XFUND,其涵盖7种语言:中文、日文、西班牙文、法文、意大利文、德文、葡萄牙文。

另外,在众多视觉效果固定不变的文档之外,现实场景中还存在大量实时渲染的动态视觉富文本文档,如基于 HTML 的网页,或基于 XML 的 Office 文件等。为此,研究员们又开发了 MarkupLM 模型,可直接对动态文档的标记语言源代码进行处理,不需要任何额外的计算资源即可渲染生成动态文档的实际视觉效果。实验结果表明 MarkupLM 显著优于过去基于网页布局的方法,具有很高的实用性。

从最初的文本信息到布局信息,再到图像信息,微软亚洲研究院持续迭代文档智能技术和模型,并于今年发布了最新成果 LayoutLMv3,以统一的文本和图像掩码建模目标来预训练多模态模型。LayoutLMv3 的创新之处在于提出了一个词块对齐预训练目标,通过预测一个文本词的对应图像块是否被遮盖,并把图像细粒度对齐关系看作一种语言,来学习跨模态的对齐关系。与此同时,LayoutLMv3 首次将文本和图像同时进行掩码预测,进一步增强了跨模态学习的有效性。而在模型架构上,LayoutLMv3 不依赖复杂的 CNN 或 Faster R-CNN 网络来表征图像,直接利用文档图像的图像块,大大节省了参数并避免了复杂的文档预处理,进而让 LayoutLMv3 可适用于以文本为中心和以图像为中心的文档智能任务。

微软亚洲研究院首席研究员韦福如表示:“Layout(X)LM 系列模型是大规模预训练基础研究,推进不同任务、语言和模态基础模型‘大一统’ (Big Convergence),以及构建通用基础模型等研究的重要组成部分。”

LayoutLMv3 的架构和预训练目标

“我们看到,在人工智能领域的研究中,包括 NLP、CV 等不同模态的研究都在呈现大一统 (Big Convergence) 的趋势,不同领域都在进行统一模型的研究。LayoutLM 的前两个版本着重解决的是语言处理问题,而 LayoutLMv3 最大的特点是可以同时应对 NLP 和 CV 两种模态的任务,在计算视觉领域取得了较大的突破,”微软亚洲研究院高级研究员崔磊表示。

微软亚洲研究院系列文档智能模型 GitHub 链接:GitHub - microsoft/unilm: Large-scale Self-supervised Pre-training Across Tasks, Languages, and Modalities

引领业界的基准模型

无论在大规模无标注数据的使用上,还是对文本、图片、多模态、多版式、多语言的富文本内容的理解上,LayoutLM 都极具领先性,尤其是 LayoutLMv3 更高的通用性和优越性,使之成为业界研究的基准模型,众多头部企业和机器人自动化 (RPA) 领域企业的文档智能产品中都有 LayoutLM 的身影。

“微软亚洲研究院不仅在基础模型和基准数据集的创新上取得了诸多成果,我们的模型还支撑了很多上层应用,让用户只用一个基础模型就能完成多项任务的训练。很多学术界和产业界的同仁都在用 LayoutLM 或 LayoutXLM 进行更多有意义的探索,促进文档智能领域向前发展。”崔磊说。

微软自身的产品更是一马当先,目前微软亚洲研究院在文档智能领域的一系列模型已应用到诸多微软的相关产品中,包括 Azure Form Recognizer、AI Builder、Microsoft Syntex 等。微软 Azure AI 合伙人研发经理张察表示,“我们很高兴能和微软亚洲研究院这些顶尖的研究员们合作。文档智能的基础模型极大地提高了我们在该领域应用、开发的效率,同时,也对文档智能的普及有着积极的推动作用。我们期待未来在这一领域有更多激动人心的进展。”

文档智能的下一步:大规模的统一框架

随着技术逐步走向成熟,文档智能已在金融、医疗、能源、政务、物流等不同行业实现了不同类型的应用。例如,在金融领域可实现财报分析和智能决策分析;在医疗领域推动病例数字化,分析医学文献和病例关联性,发现潜在治疗方案;在财务领域实现发票和订单的自动化信息提取,节省大量人工处理的时间成本。

但微软亚洲研究院并不会止步于此,崔磊表示,下一步研究员们将从提升模型规模、扩大训练数据规模和统一框架三个方面着手,进一步推进文档智能的基础研究。“NLP 领域的 GPT-3 证明了超大模型可以显著提升模型的性能,与此同时当前文档智能模型训练使用的数据还不及互联网数据的十分之一,还有很大的提升空间。我们希望不断扩展数据和模型规模,并实现一个统一的框架,把整个文档智能包含的要素都统一起来,这正是我们当前和未来研究工作的重点。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/8106.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL中find_in_set函数的使用

1.语法 FIND_IN_SET(str,strlist) (1)str 要查询的字符串 (2)strlist 字段名; 参数以”,”分隔 如 (1,2,6,8) 查询字段(strlist)中包含(str)的结果,返回结果为null或记录 假如字符串str在由N个子链组成的…

5G无线技术基础自学系列 | 物理上行控制信道

素材来源:《5G无线网络优化实践》 一边学习一边整理内容,并与大家分享,侵权即删,谢谢支持! 附上汇总贴:5G无线技术基础自学系列 | 汇总_COCOgsta的博客-CSDN博客 PUCCH用于传输上行控制信息(U…

岭回归、Lasso回归和弹性网络

减少过拟合的一个好方法是对模型进行正则化(即约束模型):它拥有的自由度越少,则过拟合数据的难度就越大。正则化多项式模型的一种简单方法是减少多项式的次数。 对于线性模型,正则化通常是通过约束模型的权重来实现的。…

记一次生产中使用CompletableFuture遇到的坑

为什么使用CompletableFuture 业务功能描述:有一个功能是需要调用基础平台接口组装我们需要的数据,在这个功能里面我们要调用多次基础平台的接口,我们的入参是一个id,但是这个id是一个集合。我们都是使用RPC调用,一般…

【22年11月12日更新】搭建宝塔面板、青龙面板“京东代挂”

本文章仅供学习 一、青龙面板是什么? 青龙面板可以运行某东脚本,你在某宝、某度等各个渠道搜索“京东代挂”,都是用青龙面板。 二、搭建宝塔面板 1.更新 yum 包 首先下载finalshell通过账号密码连接服务器,然后输入 yum up…

零基础程序员想要学好.Net,跟着这7个步骤学习就可以了

作为一个初学者程序员,很喜欢问的一个问题就是:零基础如何自学编程?在后台也有很多读者私信我,问我这个问题,其实这个问题比较大,不是一两句就可以说清楚的。 所以,今天结合我个人的经历&#x…

注意力机制详解(Attention详解)

注意力机制与人眼类似,例如我们在火车站看车次信息,我们只关注大屏的车次信息,而忽略大屏外其他内容,从而导致钱包被偷。。。 注意力机制只关注重点信息,忽略不重要的信息,关注最核心的内容。 主要就是这…

推荐系统实战2——EasyRec 推荐框架环境配置

推荐系统实战2——EasyRec 推荐框架环境配置学习前言先验条件EasyRec仓库地址EasyRec环境配置一、EasyRec的下载二、EasyRec的初始化三、EasyRec的安装四、一些额外的情况学习前言 EasyRec是阿里巴巴开源的推荐系统框架。生命苦短,从建好的推荐系统框架开始学&…

【C++】STL简介 -- string 的使用及其模拟实现

文章目录一、STL 简介1、什么是 STL2、STL 的版本3、STL 的六大组件4、STL 的重要性5、如何学习 STL二、string 类的使用1、什么是 string2、string 类模板3、构造函数4、Iterators5、Capacity6、Element Access7、Modify8、String Operations9、Non-member function overloads…

Arduino程序设计(二) 按键控制LED灯

按键控制LED灯程序设计前言一、按键控制LED灯——内部上拉(基础)二、按键控制LED灯——外部上拉(基础)三、按键控制LED灯(进阶)总结参考文献前言 本文主要介绍三种按键控制LED灯的实现方式,分别…

PatchCore原理与代码解读

paper:Towards Total Recall in Industrial Anomaly Detection code:GitHub - amazon-science/patchcore-inspection 存在的问题 目前无监督缺陷检测常用的一种方法是直接利用在ImageNet上预训练的模型中的表示,而不专门进行目标分布的迁…

从零开始将图片信息和空间信息绑定,并在前端展示到地图

作者:xiaoyan 关键词:前端查询时展示和空间数据绑定的图片资源 本文适合零基础入门 背景:iServer支持空间查询,可以将空间数据属性表中的属性查询出来,如通过SQL语句查询出某地大楼实际层高,或者查询出某…

RHCE实验--配置nfs服务

1、开放/nfs/shared目录,供所有用户查询资料; 2、开放/nfs/upload目录,供所有用户上传下载资料; 服务器与客户端都写好yum源以及挂载光盘,然后安装服务包 [rootserver ~]# yum install rpcbind -y [rootserver ~]# y…

Vue3基础

Vue 官网 https://cn.vuejs.org/ https://v3.cn.vuejs.org/ https://staging-cn.vuejs.org/api/ 1、环境 1.1、nodejs node node -vnpm #当前版本 npm -v #升级npm版本 npm install -g npm1.2、vue #安装vue npm install -g vue-cli #安装最新版本 npm install -g vu…

LQ0197 锦标赛【程序填空】

题目来源:蓝桥杯2014初赛 C A组E题 题目描述 本题为代码补全填空题,请将题目中给出的源代码补全,并复制到右侧代码框中,选择对应的编译语言(C/Java)后进行提交。若题目中给出的源代码语言不唯一&#xff0…

Python简单实现人脸识别检测, 对照片进行评分

大家好,今天和大家说说如何用Python简单实现人脸识别检测, 对照片进行排名,看看自己有多漂亮。 [开发环境]: Python 3.8 Pycharm 2021.2 [模块使用]: requests >>> pip install requeststqdm >>> pip install tqdm 简单实现进度条效果…

Arduino从零开始(1)——按钮控制LED

0.前言 本文主要介绍Arduino对于开关和条件判断函数的使用。 目录 0.前言 1.介绍 2.按钮控制LED 2.1下拉模式: 2.2上拉模式 3.扩展实验: 1.介绍 前篇介绍了点亮LED,这次案例我们尝试通过一个简单的传感器——按钮,来实现…

Ubuntu20.04离线安装Vmware tools

参考连接:在 Linux 虚拟机中手动安装 VMware Tools 从 Workstation Pro 菜单栏中选择虚拟机 > 安装 VMware Tools。 如果安装了早期版本的Vmware tools,则菜单项是更新Vmware tools如果这个安装Vmware tools 是灰色的,进行如下的处理方式…

HTML基本骨架与编辑器选择

HTML基本骨架与编辑器选择 文章目录HTML基本骨架与编辑器选择1.HTML基本了解1.1 什么是HTML1.2 HTML标签1.3 HTML元素1.4 Web浏览器1.5 HTML网页结构1.6 HTML版本了解2.HTML基本骨架介绍3.HTML编辑器的下载与使用1.HTML基本了解 1.1 什么是HTML HTML 是用来描述网页的一种语言…

双链表的基本操作

目录 一、双链表的设计 二、双链表的实现和基本操作 1.实现双链表节点以及设置first、last指针 2.获取当前链表中元素的数量 3.获取指定位置的节点 4.在尾部添加结点元素 5.在指定位置添加元素 6.删除指定位置的结点 一、双链表的设计 针对于查询操作,我们可…