[发明专利]一种结合语义分割和序列预测的通用表格识别方法和装置在审
申请号: | 202310566244.5 | 申请日: | 2023-05-19 |
公开(公告)号: | CN116311310A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 李炜铭;邵研;段曼妮;王永恒;巫英才;王芷霖;王超;刘冰洁 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06V30/412 | 分类号: | G06V30/412;G06V30/19;G06V30/148;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 311121 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 语义 分割 序列 预测 通用 表格 识别 方法 装置 | ||
本发明公开了一种结合语义分割和序列预测的通用表格识别方法和装置,该方法综合使用YOLO、VGG、UNet、SLANet、DBNet、SVTR深度学习模型,结合以语义分割为基础的两阶段方案与以序列预测为基础的端到端方案,可用于图片格式的各类表格识别,包括有线表、少线表和无线表。该方法可识别表格中的结构信息以及文本信息。可识别包含表格的图片类型包括扫描图片和从任意角度拍摄的图片。本发明训练一个目标检测模型同时用于表格检测和表格分类,并针对现有表格识别方法对有线表识别不准的问题,提出了一种简单有效的合并单元格的方法,在TableBank数据集上比端到端的方案在TEDS指标上提高了9.34个百分点(79.24%)。
技术领域
本发明涉及图像识别领域,尤其涉及一种结合语义分割和序列预测的通用表格识别方法和装置。
背景技术
文档通常由文字、图片、表格、样式等元素组成,是日常生活中最常见的信息载体之一。对于纸质文档,为了获取文档中的元素,需要将其扫描或拍摄成图片并转换成可编辑的电子文档。最常见的做法是使用OCR(Optical Character Recognition)技术,但OCR只能提取文档图片中的文字,对于文字以外的元素需要借助其他技术来完成。表格通常承载着文档中的关键信息,但由于表格的种类、样式多种多样导致表格识别一直是文档重建中的研究难点。表格识别包括表格检测和表格结构识别两个子任务。表格检测指从文档中检测出表格所在的位置,表格结构识别指提取表格的结构信息以及文本信息。表格检测可以看做是表格结构识别的前置任务,而表格结构识别可以看做是在OCR的基础上增加了对几何结构属性的识别。按有无边框来分,表格可以分为有完整边框的表格、有部分边框的表格和无边框的表格,分别简称为有线表、少线表和无线表。按字体来分,表格可以分为印刷体表格与手写体表格。
表格结构识别包含文本识别和结构识别,其中文本识别也就是应用通用文本行识别技术识别表格中的文本信息,通常采用先检测文本行再识别文本行的两阶段方法。文本行检测主要有基于回归和基于分割的方法。基于回归的方法在通用的目标检测算法(如Faster RCNN、YOLO、SSD)的基础上优化了bbox尺寸和卷积核尺寸来适配文本目标。基于分割的方法通过像素级实例分割得到文本区域,再通过后处理得到边界框。相比于基于回归的方法,该方法可以检测弯曲的文本行。文本行识别一般被划分为4个阶段:图像矫正(将倾斜、弯曲的文本矫正成水平的文本)、视觉特征提取(一般使用CNN提取图像特征)、序列特征提取(从视觉特征中提取包含上下文信息的序列,一般采用BiLSTM或Transformer)和后处理(从序列特征中预测字符,一般使用CTC(Connectionist Temporal Classification)和attention)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310566244.5/2.html,转载请声明来源钻瓜专利网。