丁凯博士在CCIG:文档图像处理「新未来」

news2025/6/7 12:32:57

文章目录

  • ⭐️ CCIG大会简介
  • ⭐️ 合合信息 与 丁凯博士
  • ⭐️ 领先世界的智能文档处理技术
    • 🌟 智能图像处理:为文字识别 "增质提效" 筑基
      • ✨ 切边增强 - 提升文档图像质量
      • ✨ 弯曲矫正 - 解决图像畸变问题
      • ✨ 去摩尔纹 - 保证图像信息完整
    • 🌟 图像预处理整体效果展示
  • ⭐️ 产品介绍 - 信息智能文字识别服务平台

上个月非常有幸的参加了 CCIG大会 ,参会除了收获众多福利品与手办礼之外,在关于我国 “图象图形” 上的发展有了进一步的深刻了解,也看到了国内众多业界前辈门对与 “图像图形” 技术的贡献与追求。

受益良多,虽然时间略晚,但是依然想为各位小伙伴们分享一番,寻找文档图像处理领域的未来进阶方向。


⭐️ CCIG大会简介

CCIG中国图象图形大会(Chinese Congress on Image and Graphics),是中国图象图形学学会的年度旗舰会议,每年举办一次,是涵盖图像图形各专业领域的学术盛会。

中国图象图形学学会经过30余年的发展,团结了一大批图像图形领域优秀人才,拥有29个专业委员会和14个工作委员会,学会凝聚力、学术影响力、平台创新力日益提升,进入了一个全新的发展阶段。

2022年,中国图象图形学学会充分利用丰富的学术资源和平台优势,凝聚图像图形领域知名专家,在20届品牌学术年会全国图象图形学学术会议(NCIG)的基础上,创办中国图象图形大会(Chinese Congress on Image and Graphics,CCIG),来自图像图形领域专家学者以及企业家约1500人参会。CCIG作为中国图象图形学学会的年度旗舰会议,涵盖图像图形各专业领域的综合性的全国性学术会议,面向开放创新、交叉融合的发展趋势,为图像图形相关领域的专家学者和产业界的同仁,搭建了一个展示创新成果、展望未来发展的,集高度、深度、广度三位一体的交流平台。


⭐️ 合合信息 与 丁凯博士

  • 合合信息
    • 合合信息成立于2006年,全称是 上海合合信息科技股份有限公司 ,是一家人工智能及大数据科技企业。依托 自主研发的领先的智能文字识别及商业大数据核心技术,为全球C端用户和多元行业B端客户提供数字化、智能化的产品及服务。
    • 拥有国内外百余项发明专利,横跨人工智能和大数据两大领域,连续三年在世界各项人工智能大赛斩获15项冠军头衔,成为智能文字识别领域当之无愧的领导者
    • 在国内,合合信息运用多项创新技术,显著提升复杂场景下文字识别与理解的性能和效果,"复杂场景文档图像识别与理解关键技术及应用" 相关项目获中国图象图形学学会(CSIG)科技进步奖二等奖。CSIG科技成果鉴定会委员认为,该项目在复杂场景文档图像识别与理解技术方面取得了创造性的成果,并具有自主知识产权,整体技术达到国际先进水平。

  • 丁凯博士
    • 2011年获华南理工大学博士学位,合合信息智能技术平台事业部副总经理,高级工程师,CSIG文档图像分析与识别专委会委员,CSIG机器视觉专委会委员,上海科技大学企业导师,华南理工大学校外研究生导师,获得上海市人才发展基金资助。
    • 研究方向为人工智能、模式识别、文档分析与理解、OCR、知识图谱等。带领团队在ICDAR、ICPR等权威学术会议组织的国际竞赛中获得多项冠军,作为主要完成人获得CSIG科技进步奖二等奖。近年来主持研发的名片识别理解、电子文档还原、多模态文档理解、知识图谱构建与挖掘等项目的研发工作,支撑了合合信息多项核心业务,取得了显著的经济效益和社会效益。


⭐️ 领先世界的智能文档处理技术

此次 CCIG大会,丁凯博士分享的主题是 "智能文档处理技术在工业界的应用与挑战" 。从最开始的简单的光学字符识别拓展到涵盖图像预处理、文字识别、版面分析、文档理解等多项技术的智能文档处理领域,而且站在合合信息的角度提出了一些技术难题的解决办法。

针对这些难以解决但又被攻克的技术难题,为各位小伙伴做一些针对性的讲解。


🌟 智能图像处理:为文字识别 “增质提效” 筑基

智能图像处理是指利用AI技术,对复杂场景中的图像进行自动识别和要素分析。受拍摄设备、拍摄环境等多方因素的制约,文档原始图像往往存在亮度不均、模糊、背景杂乱、页面残缺、透视变形等多种问题。合合信息智能图像处理技术可帮助各应用领域简化下游文档处理任务,提升后续文字识别的效率与准确性,为全球企业和个人用户提供创新的数字化、智能化服务。

✨ 切边增强 - 提升文档图像质量

合合信息的 "切边增强技术" 可以智能判断照片中主体文档的边缘进行切边,同时增强图像突出文字,可在杂乱的背景中,聚焦到核心的文档内容,大幅度提升文档图像的质量

该技术可以解决以下应用场景,当采集的业务材料图像存在着多余背景、主体过小、角度倾斜等问题时,通过合合信息的切边增强技术,可自动裁切出图像主体区域,并增强图像质量,经过该项处理后再进入后续的文字识别、信息提取、材料审核等业务,提升文档处理速度与质量。



✨ 弯曲矫正 - 解决图像畸变问题

合合信息的 "弯曲矫正技术" 创新性地采用基于位移场网络学习方法的系统构架,可对弯曲地文档进行曲面、透视矫正,同时智能定位文档边缘,能够切除多余背景。

在日常的实际工作场景中,手持镜头拍照得到的文档图像往往存在着复杂的几何形变,包括拍摄视角、纸张本身的折叠、褶皱、弯曲以及厚度等因素,都会造成拍摄图像存在畸变,极大地影响了视觉观感和后续内容识别工作的进行,“弯曲矫正技术” 解决的正是这一痛点难题。




✨ 去摩尔纹 - 保证图像信息完整

在使用相机拍摄电子屏幕,图像上会出现呈现条状、网状、波纹状等多种形态、颜色各异的摩尔纹(也称为屏幕纹)。如果不能进行及时去除,既影响图片观感,叠加在图像上的纹路也会破坏图片原有信息,对后续的内容提炼造成障碍。

而合合信息的 "去摩尔纹技术" 采用多重神经网络技术,通过分析暗角、摩尔纹的形成原理,对图像中存在的干扰因素进行对应处理,可去除所有样式的摩尔纹,同时保证图像信息完整、颜色不失真 ,保证了图像信息的完整性。



🌟 图像预处理整体效果展示

文字检测与识别技术主要对多版式、多格式的文档图像段落、表格、图片等内容信息及其位置关系进行解析、理解,不仅需要产品具备检测多样式版面的能力,也要具备多语言的识别能力,方能服务于更广泛的群体。据权威机构检测,合合信息印刷体文档字符平均识别率为 99.77%,支持全球超50种语言的文字识别与信息提取。


⭐️ 产品介绍 - 信息智能文字识别服务平台

该产品为 “合合信息” 基于智能文字识别技术,融合不同行业和场景,提供行业领先的场景智能文字识别引擎。200+国内外常见卡证、票据、行业单据、定制场景等高精准度识别产品,广泛用于所有行业和场景,支持安全稳定的云端服务、端侧SDK、私有化部署等多种服务形式。

面向企业应用者提供的文档识别标准模块,以及面向开发者的智能文字识别训练平台构成,提升智能文档企业应用及开发效率。并内置了场景丰富的预训练模型,配备专项模型类型,以满足固定版式、半固定版式、不固定版式文档的识别与分类需求,可对单页/多页、任意版式文档,提取自定义的结构化信息。

  • 国内证照:
    • 身份证识别:支持对身份证正反面的全部字段进行结构化识别,包括姓名、性别、民族、出生日期、地址、身份证号、有效期限、签发机关,同时可返回头像切片位置信息,进行头像检测。
    • 银行卡识别:支持对主流银行卡6个关键字段的高精度结构化识别,包括类型、发卡机构、发卡机构代号、有效期、卡号、持有人,同时可返回图像切边位置信息。
    • 驾驶证识别:持对驾驶证正副页全部字段进行结构化识别,包括姓名、类型、驾驶证证号、性别、国籍、住址、出生日期、初次领证日期、准驾车型、有限期限始(至)、总计有效期限。
    • 其他证照识别:组织机构代码证、开户许可证、回乡证、社保卡、护照、户口本、结婚证、离婚证、房产证、军官证、车辆合格证、车辆登记证、车牌号、车辆Vin码、卫生许可证、法人证、港澳通行证台湾保健卡、出生证明、不动产证等证照识别。
  • 国内票据:
    • 国内通用票据识别:支持对多种票据类型(多票据)票据切分、票据分类、票据识别,包括增值税普通发票、增值税普通发票(卷票)、增值税专用发票、增值税电子普通发票、货物运输业增值税专用发票、增值税销货清单和其他可报销票据。
    • 火车票识别:支持对任意方向旋转的红、蓝火车票12个字段智能识别为结构化文本,包括火车票红色编码、检票口、出发地、车次号、乘车时间、乘客信息等。
    • 其他票据识别:电子承兑汇票识别、通用机打发票识别、通用机打发票识别、二手车购车发票识别、商铺小票识别、公路客运发票识别、海关进出口货物报关单识别、票据分类、发票验真、银行回执单识别、增值税发票识别等。
  • 海外证件:
    • 马来西亚身份证识别:支持对马来西亚身份证中所有字段进行结构化识别,并提供切边头像。
    • 日本驾驶证识别:对日本驾驶证中姓名、住所、生日、交付日期、有效期、个人番号6个关键字段识别,输出结构化中文文本结果。
    • 菲律宾身份证识别:对菲律宾身份证全部7个字段进行结构化识别,支持单个或批量上传扫描件或拍照图像

此外,合合信息智能文档处理系统还具备数据回流功能,将实际业务中产生的标注信息数据回流进行训练,实现了在业务场景中越用越好用”的持续迭代效果,持续提升识别精度,真正做到了智能化和终身学习。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/557926.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

各行业防雷工程和防雷接地的应用方案

随着现代电气、电子设备的广泛应用,防雷措施也越来越受到重视。特别是在单位、家庭建筑物中,为了保障人们的生命财产安全,必须采取严格的防雷措施。 一、防雷举措 接地系统 接地系统是防雷措施的基础,其目的是将建筑物内部的电…

AI孙燕姿爆火,华语乐坛重温旧梦

最近在B站,AI孙燕姿火了。 浏览相关搜索页面,这位新晋“红人”翻唱了各种类型的歌曲,包括《红豆》《爱在西元前》《水星记》《安河桥》,甚至还有《向天再借五百年》,更重要的是,表现普遍不俗,俘…

态路小课堂丨光口不亮?三种简单故障排查请查收!

在光链路中,当遇到交换机光口互连不亮情况时,很多人不知道如何处理。本文态路为您介绍三种简单故障排查方案,助您快速进行故障排查和问题定位。 一、首先检查一致性 1、两端光模块型号是否一致。一般包括速率、封装模式、接口类型、传输波长、…

pdf如何删除其中一页?不妨试试这些办法

PDF格式是一种非常常见的文档格式,它可以在各种系统和设备上使用,而且无论在哪里打开,都可以保持格式的一致性。有时候,我们需要删除PDF文档中的一页,无论是为了更改文档的结构,还是为了删除错误的信息。在…

chatgpt赋能Python-python_imapclient

Python IMAPClient – 了解如何使用它 Python是一种流行的解释性编程语言,它在Web开发、数据科学、人工智能等领域得到广泛应用。Python提供了极大的灵活性和易用性,几乎可以满足任何编程需求。如果你需要编写电子邮件客户端,Python IMAPCli…

Spring Boot 日志处理

Spring Boot 日志处理 Spring Boot 是一个非常流行的 Java 开发框架,它提供了简洁的配置和强大的开发工具。日志是应用程序中必不可少的一部分,因为它可以帮助开发人员进行调试和故障排除。Spring Boot 提供了多种日志框架,本文将重点介绍如…

Spring Cloud Feign 是什么?如何使用它来简化 RESTful 调用?

Spring Cloud Feign 是什么?如何使用它来简化 RESTful 调用? 在分布式系统中,服务之间的通信是非常常见的场景。通常情况下,服务之间的通信是通过 RESTful API 实现的。但是,手动编写 RESTful 调用代码非常繁琐&#…

python---变量(1)

EG:计算方差 1.先把这一组数的平均值计算出来(后面会反复使用) 2.针对每个数字,分别计算数字和平均值的差,再平方。 3.把2中的平方值相加 4.总和/(项数-1) 下面我们开始实现这个代码! 代码运行…

OpenPCDet系列 | 7.1 KITTI数据集测试流程predicted_boxes预测

文章目录 AnchorHeadTemplate.generate_predicted_boxes部分 AnchorHeadTemplate.generate_predicted_boxes部分 测试流程的结构图如下所示: generate_predicted_boxes函数一开始的数据传入为: 首先对于各类预测的特征图进行重新reshape处理&#x…

Redis配置及优化

一、关系数据库和非关系型数据库 1、关系型数据库 关系型数据库是一个结构化的数据库,创建在关系模型(二维表格模型)基础上,一般面向于记录。 SQL语句(标准数据查询语言)就是一种基于关系型数据库的语言…

S20360-SRS科尔摩根KOLLMORGEN

​ S20360-SRS科尔摩根KOLLMORGEN 电机驱动器是一种必不可少的设备,可为步进电机提供所需的电压和电流,使其平稳运行。步进电机是一种步进式转动的直流电机,它无法直接接到直流或交流电源上工作,必须使用专用的驱动电源(步进电机驱…

HTML常见的字符实体汇总

HTML字符实体,做开发的小伙伴们都知道,HTML有一些预留字符,浏览器在解析时不能正确的显示,这个时候我们就需要使用字符实体进行替换。同时,有一些键盘上找不见的符号我们也可使使用字符实体进行替换,如下是…

达梦分区表的使用

在大型的企业应用或企业级的数据库应用中,要处理的数据量通常达到TB级,对于这样的大型表执行全表扫描或者DML操作时,效率是非常低的。 为了提高数据库在大数据量读写操作和查询时的效率,达梦数据库提供了对表和索引进行分区的技术…

盘点界面控件DevExpress WinForms的几大应用程序主题

DevExpress WinForm控件包含了50个自定义皮肤,其中涵盖了Microsoft Office和Windows 11启发式的应用程序主题。 PS:DevExpress WinForm拥有180组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForm能完美构建…

DNDC模型在土地利用变化、未来气候变化下的建模方法及温室气体时空动态模拟实践技术应用

由于全球变暖、大气中温室气体浓度逐年增加等问题的出现,“双碳”行动特别是碳中和已经在世界范围形成广泛影响。国家领导人在多次重要会议上讲到,要把“双碳”纳入经济社会发展和生态文明建设整体布局。同时,提到要把减污降碳协同增效作为促…

vue3+el-menu实现路由刷新左侧菜单栏保持选中状态

问题描述&#xff1a; 使用el-menu 实现管理系统左侧菜单栏的时候&#xff0c;刷新页面&#xff0c;菜单栏的选中状态消失 解决方案&#xff1a; 给 el-menu 加上 :default-active"this.$route.path" <el-menu :default-active"this.$route.path" …

雅思倒计时一个月|阅读准备笔记(三)

雅思阅读真经总纲。 读了一个星期 True|False|Not Given 这类题不太清楚&#xff0c;书里面有方法很有效 深呼吸过渡到下一篇阅读&#xff0c;不用急忙去下一篇 技巧一&#xff1a;拿到文章先读题目 看文章之前先读题目&#xff01;&#xff01;&#xff01;并且划一下题目关…

【头歌实训】【基于 Logisim 的 RISC-V 处理器设计】第二关-32个寄存器读写

好恶心的题&#xff0c;手连麻了 一、题目 考虑到寄存器文件的重要性&#xff0c;为基于 Logisim 实现单周期 RV32I 处理器&#xff0c;本关卡需实现一个寄存器文件部件。由于 0 号寄存器之外的 RV32I 寄存器操作方式类似&#xff0c;寄存器文件包含 32 个 32 位寄存器&#x…

chatgpt赋能Python-python_idle怎么撤销

Python Idle撤销操作&#xff1a;简易指南 作为一名有10年Python编程经验的工程师&#xff0c;我深知Python Idle在编程中的重要性。当你在编写Python代码时&#xff0c;难免会犯一些错误&#xff0c;此时“撤销”操作是非常有用的。在本篇文章中&#xff0c;我将为您介绍Pyth…

苹果手机微信分身怎么弄?学会这招不求人!

案例&#xff1a;想要把生活与工作分开&#xff0c;所以我创建了两个微信&#xff0c;想问下怎么样可以双开微信&#xff1f; 【求解&#xff01;我弄了两个微信号&#xff0c;目的是区分生活与工作&#xff0c;不想要私人账号加太多陌生人。但是微信账号老是要切换才能看到信…