[发明专利]表格识别方法、装置以及计算机可读存储介质有效

申请号：	202011407580.8	申请日：	2020-12-03
公开（公告）号：	CN112528813B	公开（公告）日：	2021-07-23
发明（设计）人：	陈静	申请（专利权）人：	上海云从企业发展有限公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	北京瀚仁知识产权代理事务所(普通合伙) 11482	代理人：	屠晓旭;宋宝库
地址：	201203 上海市浦东新区中国（上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	表格识别方法装置以及计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及表格识别技术领域，具体提供了一种表格识别方法，旨在解决现有表格识别方法泛化性差、精准度不佳的技术问题。根据本发明实施例的方法，可以采用预设的图像识别模型获取待识别表格图像的表格线前景图和文本前景图；根据表格线前景图获取待识别表格图像的表格结构；根据单元格的位置、第一文本行位置和第二文本行位置，获取与单元格关联的最终的文本行位置；根据最终的文本行位置从待识别表格图像中获取相关联单元格对应的文本行图像，对文本行图像进行文本识别并且将识别出的文本信息存储至单元格内，以形成识别后的表格。通过上述步骤，可以提高表格识别的精准度，并且泛化性好。

技术领域

本发明涉及表格识别技术领域，具体涉及一种表格识别方法、装置以及计算机可读存储介质。

背景技术

表格是文本的常见内容，工作中常常需要将图像中的表格转化为可编辑的文件格式，手动输入是最简单的方法，但这一方法在处理大量表格时效率很低，而且较容易出错。目前较常用的方法是使用图像获取设备获取表格图像后，采用图像特征提取表格框线，比如文本块特征、表格区域逻辑关系特征、线交点特征等对表格图像进行识别，进而输出识别结果。

然而，上述识别方法对清晰或者比较简单的表格图像进行识别的效果较好，对于存在表格线断裂和弯曲等问题的低质量表格图像或者比较复杂的表格图像进行识别的效果不佳，甚至出现漏识别的情况，识别精准度差。

相应地，本领域需要一种新的表格识别方案来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有表格识别方法泛化性差，识别精准度不佳的技术问题的表格识别方法、装置以及计算机可读存储介质。

第一方面，提供一种表格识别方法，所述表格识别方法包括：

采用预设的图像识别模型获取待识别表格图像的表格线前景图和文本前景图；

根据所述表格线前景图获取所述待识别表格图像的表格结构；

对所述待识别表格图像进行文本行检测，以获取所述待识别表格图像中文本行的第一文本行位置；

根据所述表格结构中单元格的位置，获取在所述文本前景图中相应位置处存储的所述待识别表格图像中文本行的第二文本行位置；

根据所述单元格的位置、所述第一文本行位置和所述第二文本行位置，获取与所述单元格关联的最终的文本行位置；

根据所述最终的文本行位置从所述待识别表格图像中获取相关联单元格对应的文本行图像，对所述文本行图像进行文本识别并且将识别出的文本信息存储至所述单元格内，以形成识别后的表格。

在上述表格识别方法的一个技术方案中，“获取待识别表格图像的表格线前景图和文本前景图”的步骤具体包括：