TSRFormer:复杂场景的表格结构识别新利器

news2025/7/9 9:04:17

编者按:近年来,各大企业和组织机构都在经历数字化转型。将文档转换成计算机所能识别的样态,是数字化转型的关键步骤,如何识别出图片中表格具体的结构与内容,并直接提取其中的数据和信息是学术界和工业界共同瞩目的焦点。然而,目前的表格识别算法多用于识别横平竖直的表格,对于全无边界和实线的表格、行列之间存在大片空白区域的表格等日常生活中常见的表格还没有较好的解决方案,对于拍摄角度倾斜而表格边框弯曲等情况更是束手无策。今天我们将为大家介绍微软亚洲研究院在表格结构识别方向的最新进展,研究员们提出了一种新的表格结构识别算法 TSRFormer,能够较好地识别复杂场景中不同类型的表格。


如今,各行各业正在向数字化转型,海量的文档型数据也源源不断地生成。用人工处理这些蕴含着丰富信息的文档,存在如耗时长、成本高、易出错等缺陷,在实际应用中难以高效执行。因此,社会对于自动化文档处理技术的需求日益增加,智能文档处理(IDP)成为了近几年的热点。与此同时,市场上也涌现出了许多相关产品,例如微软就提供了全方位的 IDP 服务及解决方案。如图1所示,智能文档处理通过光学字符识别(OCR)、文档图像分析、计算机视觉,以及自然语言处理等技术,将复杂的非结构化文档数据转变为能被计算机直接理解和使用的结构化数据,从而帮助企业或个人更加高效地获取文档中的有用信息。

图1:智能文档处理(IDP)的流程示意图

在各类文档中,表格作为一种高效的信息表达形式,通常被人们用来呈现结构化的数据,例如公司财报、发票、银行流水、实验数据、医院检验报告等等。如何抽取及理解表格的技术一直都是 IDP 中的重要组成部分。

表格抽取技术解决的主要问题是如何自动地将图像中的表格数字化,其包含两个子任务:表格检测和表格结构识别。其中,表格结构识别旨在从表格的图像中还原表格的结构信息,包括每个单元格的坐标位置以及每个单元格所属的行列信息。如图2所示,在实际场景中,表格结构识别是一个极具挑战性的问题。其挑战的难度主要在于表格的结构与内容的复杂多样性,例如存在完全无边界和实线的表格、包含许多空白单元格或者跨行跨列单元格的表格、行列之间存在大片空白区域的表格、嵌套的表格、密集的大表格、单元格包含多行文字内容的表格等等。不仅如此,在相机拍摄的场景中,有些表格的边框可能因拍摄角度而倾斜或弯曲,这都大大增加了表格结构识别的难度。

图2:表格图像的多样性与复杂性

近年来,表格结构识别领域受到了学术界与工业界的广泛关注,其中涌现出了大量研究成果。但这些研究成果的视角大多仅限于简单的应用场景,例如 PDF 或扫描文档中横平竖直的表格或分割线均为实线的表格,而对于图2中这些在实际场景中经常出现的情况,尤其是倾斜、弯曲且没有实线的表格关注度较低。因此,现有的算法距离完全解决实际场景中的表格识别问题还存在很大差距。为了让表格识别技术适用于更广泛的应用场景,微软亚洲研究院的研究员们提出了一种新的表格结构识别算法 TSRFormer[1],该算法能够较好地识别复杂场景中不同类型的表格。

TSRFormer: 提供表格结构识别新思路

现有的表格结构识别算法大致分为三种范式:编码-解码范式、自底向上范式和拆分-合并范式。编码-解码范式下的模型在输入表格图像后可以直接预测表示表格结构的编码序列(如 HTML、LaTeX 等)。该范式即使在识别较为容易的横平竖直表格的任务中,仍然需要远超于其他范式的训练数据才能产出较好的效果。若要进一步支持倾斜或弯曲的表格,则还需额外收集大量的数据,因此研发成本较高。此外,目前基于该范式的方法在处理单元格较为密集的大表格时,精度相对较低。

自底向上范式一般需要依赖额外的模块预先检测文本或单元格作为基础单元,再预测这些基础单元是否属于同一行、列或单元格从而定位表格结构。所以该范式难以处理包含大量空白单元格或空行空列的表格。

不同于以上两种范式,微软亚洲研究院的研究员们发现基于拆分-合并范式的方法具有更强的可扩展性,在复杂场景中只需要较少的训练数据就能达到很高的精度,而且可以鲁棒地处理包含空白单元格以及空行空列的表格。因此,基于该范式研究员们提出了 TSRFormer。如图3所示,对于输入的表格图像,TSRFormer 先由拆分模块预测出所有行、列的表格分割线,求交点后,生成 N x M 个单元格,再由合并模块预测相邻单元格是否需要合并从而恢复出跨多行、多列的单元格。

图3:TSRFormer 的整体结构图

在以往基于拆分-合并范式的方法中,预测拆分模块的表格线一般通过图像分割模型结合从分割图中提取表格分割线的后处理模块完成(如[2][3]等),而基于规则设计的后处理模块难以处理低质量的分割图,这严重降低了模型针对诸如倾斜、弯曲的表格识别的精度以及泛化能力。不同于既有设计,TSRFormer 提出了一种不需要后处理模块的全新思路:通过直接回归的方式来预测分割线。具体来说,该方法采用每条分割线上的若干采样点来表示该分割线,并让模型直接回归每条分割线上采样点的坐标,从而得到分割线的位置信息。

为了让 TSRFormer 能够精确且高效地预测表格分割线,研究员们还提出了一套新的基于两阶段 DETR[4] 的分割线回归算法:SepRETR。如图4所示,在第一阶段中,SepRETR 先用参考点预测模块,为每一条表格分割线预测出一个参考点(reference point);在第二阶段,由这些参考点的视觉以及空间信息组成的特征向量集合作为查询特征(query)输入进一个解码器(Transformer decoder)来回归对应的完整分割线。

图4:基于 SepRETR 的表格分割线预测模型(此处以行分割线为例)

在此基础上,研究员们进一步提出了两个改进算法来提升模型性能:(1)提出了基于先验增强的匹配策略来解决原始 DETR[5] 训练收敛慢的问题;(2)仅采样少量像素的特征作为解码器交叉注意力(cross attention)模块的输入,该方案可以使模型事半功倍,利用较少的计算量即可达到高定位精度。

实验结果及可视化效果

目前,学术界的绝大部分公开数据集都只包含 PDF 或者扫描文档图像中完全横平竖直的表格(如 SciTSR[6]、PubTabNet[7] 等)。与实际应用场景相比,这类数据集较为简单,不能涵盖日常生活中的所有表格类型。近一年,复杂场景中的表格结构识别问题逐渐受到关注,例如去年新发布的 WTW 数据集[8]就开始考虑实际自然场景中的表格。在该数据集中,由于相机拍摄引起的干扰,一些表格会出现倾斜或弯曲,这大大增加了表格结构识别问题的难度。但 WTW 数据集只考虑了分割线均为实线的表格,而没有包含无实线的表格。为了能够更全面地测试模型在各类场景下的性能,研究员们收集了一个更加复杂的数据集,该数据集包含了各式各样复杂场景的样本,例如结构复杂、包含大量空单元格或长跨行跨列单元格的无实线表格,以及倾斜甚至弯曲的表格等等。

研究员们首先在三个较大规模的公开数据集 SciTSR、PubTabNet 以及 WTW 上验证了 TSRFormer 的性能。从表1、表2以及表3的结果可以看出,无论是在横平竖直的简单场景(SciTSR、PubTabNet)还是在分割线均为实线的自然场景(WTW)表格识别任务上,TSRFormer 均比现有的方法表现得更加优秀。

表1:TSRFormer 与现有方法在 SciTSR 上的性能对比

表2:TSRFormer 与现有方法在 PubTabNet 上的性能对比(其中 TEDS[7] 指标同时考虑表格结构识别和表格内容 OCR 识别的精度,而 TEDS-Struct[10] 仅评测表格结构识别,因此后者更适用于公平比较表格结构识别模型的精度)

表3:TSRFormer 与现有方法在 WTW 上的性能对比

为了进一步验证 TSRFormer 的有效性,研究员们在更具挑战性的内部数据集上开展了实验,并将 TSRFormer 与另外两个基于拆分-合并范式的代表算法——SPLERGE[2] 和 RobusTabNet[3],进行了对比。为了使对比更加公平,在实现这三个方法的时候仅有表格分割线预测的部分不同,其余部分模型结构均保持一致。从表4可以看出,由于 SPLERGE 假设表格是横平竖直的,其在同样是横平竖直场景的数据集 SciTSR 和 PubTabNet 上都能取得接近 SOTA 的结果,但在包含倾斜甚至弯曲的内部数据集上则大幅度落后于 TSRFormer,F1-score 相差了11.4%。图5的可视化效果展示了 SPLERGE 与 TSRFormer 在复杂场景中的明显差距。

表4:TSRFormer 与 SPLERGE 在多个数据集上的性能对比

图5:TSRFormer(红)与 SPLERGE(蓝)的可视化效果对比

在表5的消融实验中,研究员们将基于直接回归的 TSRFormer 与目前基于图像分割的最优方案 RobusTabNet 进行了对比。TSRFormer 与 RobusTabNet 均能处理倾斜或弯曲的表格。根据表5的实验结果,在更具挑战性的内部数据集中,相比 RobusTabNet,TSRFormer 的 F1-score 高出2.9%。关于消融实验的其他细节,可见论文[1]。

表5:TSRFormer 与 RobusTabNet 在内部数据集上的对比,以及各模块的消融实验

图6中的可视化结果展示了基于直接回归方法的优势。对于图6这种单元格密集、弯曲且含有大面积空白区域的困难样本,基于图像分割的结果并不鲁棒,这使得后续的后处理模块难以提取出正确的分割线。而与之相反,基于直接回归思想的 TSRFormer 并不需要任何后处理模块,对表格中的数据和内容识别得更为精确。

图6:TSRFormer(右) 与 RobusTabNet(中) 的可视化结果对比

最后,图7展示了 TSRFormer 在多个场景表格图像上的可视化结果,可以看到该方法对于大部分复杂场景表格的识别呈现高鲁棒性。

图7:TSRFormer 在各个数据集上的可视化结果(左右滑动查看更多)。(a-b)来自 SciTSR,(c-d)来自 PubTabNet,(e-h)来自 WTW,以及(i-l)来自内部数据集

未来的挑战

虽然 TSRFormer 在识别大部分场景的表格图像中取得了可喜成果,但要完全解决所有场景的表格结构识别问题道阻且长。主要问题在于,目前的算法只考虑了视觉图像单一模态的信息,而对于内容极为复杂的表格,例如单元格包含多行文字内容或存在极长且无实线的跨行跨列单元格,不仅需要利用图像信息,还需要充分理解图中文字的语义后,才能正确地识别表格结构。此外,现有的方法仍然无法解析多层级的嵌套表格。微软亚洲研究院的研究员们将不断推进表格结构识别的性能,也欢迎同行共同交流、探索该领域更好的技术!

参考文献:

[1] Weihong Lin, Zheng Sun, Chixiang Ma, Mingze Li, Jiawei Wang, Lei Sun, Qiang Huo. TSRFormer: Table structure recognition with Transformers. In ACM Multimedia, 2022.

[2] Chris Tensmeyer, Vlad I. Morariu, Brian Price, Scott Cohen, Tony Martinez. Deep splitting and merging for table structure decomposition. In ICDAR, 2019.

[3] Chixiang Ma, Weihong Lin, Lei Sun, Qiang Huo. Robust table detection and structure recognition from heterogeneous document images. Pattern Recognition, 2023.

[4] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, Jifeng Dai. Deformable DETR: Deformable Transformers for end-to-end object detection. In ICLR, 2021.

[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko. End-to-end object detection with Transformers. In ECCV, 2020.

[6] Zewen Chi, Heyan Huang, Heng-Da Xu, Houjin Yu, Wanxuan Yin, XianLing Mao. Complicated table structure recognition. arXiv:1908.04729, 2019.

[7] Xu Zhong, Elaheh ShafieiBavani, Antonio Jimeno Yepes. Image-based table recognition: Data, model, and evaluation. In ECCV, 2020.

[8] Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia. Parsing table structures in the wild. In ICCV, 2021.

[9] Sachin Raja, Ajoy Mondal, CV Jawahar. Table structure recognition using top-down and bottom-up cues. In ECCV, 2020.

[10] Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu. LGPMA: Complicated table structure recognition with local and global pyramid mask alignment. In ICDAR, 2021.

[11] Hao Liu, Xin Li, Bing Liu, Deqiang Jiang, Yinsong Liu, Bo Ren, Rongrong Ji. Show, read and reason: Table structure recognition with flexible context aggregator. In ACM Multimedia, 2021.

[12] Xinyi Zheng, Douglas Burdick, Lucian Popa, Xu Zhong, Nancy Xin Ru Wang. Global table extractor (gte): A framework for joint table identification and cell structure recognition using visual context. In WACV, 2021.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/8942.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言操作符大全(建议收藏)

前言 💖作者:龟龟不断向前 ✨简介:宁愿做一只不停跑的慢乌龟,也不想当一只三分钟热度的兔子。 👻专栏:C初阶知识点 👻工具分享: 刷题: 牛客网 leetcode笔记软件&#xff…

操作系统4小时速成:进程管理占考试40%,进程状态,组织,通信,线程拥有调度,进程拥有资源,进程和线程的区别

操作系统4小时速成:进程管理占考试40%,进程状态,组织,通信,线程拥有调度,进程拥有资源,进程和线程的区别 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招…

生活中的5 个自动化Python 项目——从初学者到高级(附零基础学习教程)

前言 如果你正在学习 Python,你应该尝试自动化你的日常任务。(文末送读者福利) 您不仅可以通过实现您已经知道的知识来学习更多 Python,而且最终,您可以看到所有的辛勤工作是如何得到回报的。 最近,由于…

拉格朗日粒子扩散FLEXPART模式

当前,大气污染是我国重要的环境问题之一。为了高效、精准地治理区域大气污染,需要弄清污染物的来源。拉格朗日粒子扩散模式FLEXPART通过计算点、线、面或体积源释放的大量粒子的轨迹,来描述示踪物在大气中长距离、中尺度的传输、扩散、干湿沉…

第五节.常用Linux命令—远程管理

第五节.常用Linux命令—远程管理 1.关机/重启:(shutdown) 1).命令格式: 命令作用shutdown 选项 时间关机/重新启动 2).常用命令: 命令含义shutdown -r now重新启动操作系统,其中now表示现在shutdown now立刻关机,其中now表示现在shutdown …

热门Java开发工具IDEA入门指南——从Eclipse迁移到IntelliJ IDEA(一)

IntelliJ IDEA,是java编程语言开发的集成环境。IntelliJ在业界被公认为最好的java开发工具,尤其在智能代码助手、代码自动提示、重构、JavaEE支持、各类版本工具(git、svn等)、JUnit、CVS整合、代码分析、 创新的GUI设计等方面的功能是非常强大的。 本文…

css水平居中的几种方法

实现方法实现方法:定位 position 偏移值 left margin-left 回退定位 position 偏移值 left CSS-2d transform文字居中:text-align:center; 行内块元素弹性布局: display:flex; [推荐]实现方法: 1、添加 margin 值 auto 2、定位 positio…

[附源码]计算机毕业设计JAVA电影影评网

[附源码]计算机毕业设计JAVA电影影评网 项目运行 环境配置: Jdk1.8 Tomcat7.0 Mysql HBuilderX(Webstorm也行) Eclispe(IntelliJ IDEA,Eclispe,MyEclispe,Sts都支持)。 项目技术: SSM mybatis Mav…

企业 SDLC 安全生命周期管理

最近看了很多SDLC的东西,把其中比较重要关键的记录一下,用简洁的语言说清楚 0x01 SDL 介绍 SDL是微软提出的一种软件开发安全生命周期管理的一种最佳安全实践,全称为Security Development Lifecycle 0x02 为什么要SDL 目的是为了从安全漏…

硕士论文阅读——基于机器视觉和深度学习的工人安全帽检测与身份识别方法

文章目录零、摘要一、绪论1、背景与研究意义2、国内外研究现状(1)安全帽佩戴检测研究现状与不足(2)身份识别研究现状与不足(3)基于深度学习的目标检测二、深度学习目标检测理论1、卷积神经网络(…

jQuery基础

目录 jQyery简介 获取jQuery jQuery基本语法 1.使用jQuery弹出提示框 2.$(document).ready()与window.onload的区别 jQuery选择器 jQuery层次选择器 jQyery简介 jQuery由美国人John Resig于2006年创建。jQuery是目前最流行的JavaScript程序,它是对JavaScript对…

Windows OpenGL 图像灰度图

目录 一.OpenGL 图像灰度图 1.原始图片2.效果演示 二.OpenGL 图像灰度图源码下载三.猜你喜欢 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 基础 零基础 OpenGL ES 学习路线推荐 : OpenGL ES 学习目录 >> OpenGL ES 特效 零基础 OpenGL ES …

27k入职阿里测试岗那天,我哭了,这5个月付出的一切总算没有白费~

先说一下自己的个人情况,计算机专业,16年普通二本学校毕业,经历过一些失败的工作经历后,经推荐就进入了华为的测试岗,进去才知道是接了个外包项目,不太稳定的样子,可是刚毕业谁知道什么外包不外…

Linux任务调度

基本原理: crontab [选项] -e 编辑crontab定时任务 -l 查询crontab任务 -r 删除当前用户所有的crontab任务 快速入门 设置任务调度文件: /etc/crontab 设置个人任务调度。执行crontab -e命令。 接…

100道Spring面试题以及参考答案(2022年最新版)

77道Spring面试题以及参考答案(2022年最新版),分享给大家~ 一、Spring概述 1. 什么是spring? Spring是一个轻量级Java开发框架,最早有Rod Johnson创建,目的是为了解决企业级应用开发的业务逻辑层和其他各…

netstat命令应用和ifconfig命令应用

记录: 318 场景: 在CentOS 7.9操作系统上,使用netstat命令监控和查看TCP/IP等网络信息;使用ifconfig命令查看IP地址等网络信息。 版本: 操作系统: CentOS 7.9 1.基础环境 在CentOS 7.9操作系统,使用netstat命令和ifconfig命令&#xff…

Linux之LNMP离线安装

一、需求说明 LNMP一键安装包对于小型系统部署来说真的是非常方便,日常工作中除了在线安装,也存在部分场景要求离线安装。比如内网专网、严格限制访问外网的网络等,有些院校的实验室就是这种情况,需要使用光盘来完成系统的部署安装…

2022年认证杯SPSSPRO杯数学建模C题(第二阶段)污水流行病学原理在新冠疫情防控方面的作用求解全过程文档及程序

2022年认证杯SPSSPRO杯数学建模 C题 污水流行病学原理在新冠疫情防控方面的作用 原题再现: 2019 年新型冠状病毒肺炎疫情暴发至今已过两年,新型冠状病毒历经多次变异,目前已有 11 种变异毒株,包括阿尔法、贝塔、德尔塔、奥密克戎…

Optional详解

一 有什么用 对象的NPE处理简化if else代码 二 怎么用 Optional 就好像是一个包装类,可以把具体的数据封装到 Optional 对象内部,然后我们去使用 Optional 中封装好的方法操作封装进去的数据就可以非常优雅的避免空指针异常 2.1 创建Optional对象 O…

CellMarker 2.0 | 细胞标志物数据库更新啦!~(附使用指南)

1写在前面 细胞标志物(Cellmarker)可以用来定义、区别不同细胞。随着单细胞测序(scRNA-seq)的普及(主要是便宜了📉),相关的研究也越来越多。🥳 在进行细胞注释的时候&…