[发明专利]文档表格识别方法、装置、设备及存储介质在审
申请号: | 202110851182.3 | 申请日: | 2021-07-27 |
公开(公告)号: | CN113486848A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 雷田子;党升 | 申请(专利权)人: | 平安国际智慧城市科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T5/30;G06F40/18;G06F40/194;G06N3/04;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;刘丽华 |
地址: | 518000 广东省深圳市前海深港合*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 表格 识别 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能,提供一种文档表格识别方法、装置、设备及存储介质。该方法能够获取待处理信息,并识别所述待处理信息所属的信息类型,若所述信息类型为预设类型,从所述待处理信息中识别出初筛线段,对所述初筛线段进行校验过滤处理,得到表格线段,根据所述表格线段定位所述待处理信息的倾斜角度,根据所述倾斜角度分析所述表格线段,得到单元表格,基于所述文本检测网络处理所述单元表格,得到所述单元表格的二值近似图,基于所述文字识别网络处理所述二值近似图,得到所述待处理信息的识别结果。本发明能够准确的定位出倾斜表格中的单元格并识别出表格中的文本信息。此外,本发明还涉及区块链技术,所述识别结果可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文档表格识别方法、装置、设备及存储介质。
背景技术
文档表格识别方式是从表格中提取和访问数据及其他有效信息。为了提高从文档表格中提取信息的效率,目前主要通过最小二乘法拟合表格线算法、基于直线交点交角的区域定位算法等方式定位出单元格,进而从定位出的单元格中提取出有效信息。然而,这些方式无法准确的定位出倾斜表格中的单元格,造成无法准确的提取出文档表格中的相关信息。
发明内容
鉴于以上内容,有必要提供一种文档表格识别方法、装置、设备及存储介质,能够准确的定位出倾斜表格中的单元格,从而能够准确的提取出文档表格中的相关信息。
一方面,本发明提出一种文档表格识别方法,所述文档表格识别方法包括:
当接收到识别请求时,根据所述识别请求获取待处理信息,并识别所述待处理信息所属的信息类型;
若所述信息类型为预设类型,从所述待处理信息中识别出初筛线段;
对所述初筛线段进行校验过滤处理,得到表格线段;
根据所述表格线段定位所述待处理信息的倾斜角度;
根据所述倾斜角度分析所述表格线段,得到单元表格;
获取预先训练好的文本识别模型,所述文本识别模型包括文本检测网络及文字识别网络;
基于所述文本检测网络处理所述单元表格,得到所述单元表格的二值近似图;
基于所述文字识别网络处理所述二值近似图,得到所述待处理信息的识别结果。
根据本发明优选实施例,所述方法还包括:
若所述信息类型不为所述预设类型,获取所述信息类型与所述预设类型的映射函数;
切分所述待处理信息,得到多个切分信息;
基于所述映射函数对所述多个切分信息进行并行转换处理,得到目标信息。
根据本发明优选实施例,所述从所述待处理信息中识别出初筛线段包括:
基于cv2.cvtColor()函数分析所述待处理信息,生成所述待处理信息的灰度图;
基于threshold()函数对所述灰度图进行二值化处理,得到目标图像;
对所述目标图像执行腐蚀膨胀处理,得到多个图像线段;
根据每个图像线段在所述待处理信息中的线段坐标确定每两个图像线段的线段间距;
将所述线段间距小于第一预设间距的两个图像线段进行合并处理,得到所述初筛线段。
根据本发明优选实施例,所述对所述初筛线段进行校验过滤处理,得到表格线段包括:
根据所述线段坐标计算所述初筛线段的线段长度;
对所述线段长度进行离散化处理,得到所述初筛线段的长度离散结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110851182.3/2.html,转载请声明来源钻瓜专利网。