[发明专利]二维表格识别方法、装置、设备及系统在审
申请号: | 202011581859.8 | 申请日: | 2020-12-28 |
公开(公告)号: | CN112597927A | 公开(公告)日: | 2021-04-02 |
发明(设计)人: | 田丹;银虹宇 | 申请(专利权)人: | 电子科技大学;成都精准云科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06F40/166 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 涂凤琴 |
地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 二维 表格 识别 方法 装置 设备 系统 | ||
本申请涉及一种二维表格的识别方法、装置及设备,二维表格的识别方法包括:获取待识别表格;基于预先配置的识别参数,对待识别表格进行识别,得到待识别表格与目标表格的表头匹配结果和表内对应关系;根据表头匹配结果和表内对应关系,从待识别表格中获取到目标表格的内容并存储。如此,无需人工去配置表格字段与目标字段的对应关系,也无需待处理表格的格式与目标表格的格式必须完全一致,可以简单、高效地实现对待识别表格的识别,解决了表格数据内容的多样性和表格格式的不确定性带来的兼容问题,为表格数据处理提供了便利。
技术领域
本申请涉及大数据处理技术领域,具体涉及一种二维表格识别方法、装置及设备。
背景技术
随着互联网技术的快速发展,大数据处理技术也随之越来越重要。其中,将格式多样的数据经过处理转化为特定格式的数据存储到数据库中,作为大数据处理技术的基础应用,在各行各业中都占据着重要地位,而表格数据处理作为其中一个组成部分尤为重要。
相关技术中,由于表格数据内容的多样性以及表格格式的不确定性,如何做好表格数据处理一直是一个难点。传统的表格数据处理方法通常是人工干预软件来执行,通过预先配置表格字段与目标字段的对应关系来实现对表格数据的处理。而这样的处理方法不仅效率低下,待处理表格的格式还要求必须与用于配置的表格完全一致,缺乏兼容性。
发明内容
有鉴于此,本申请的目的在于克服现有技术的不足,提供一种二维表格识别方法、装置及设备。
为实现以上目的,本申请采用如下技术方案:
本申请的第一方面提供一种二维表格的识别方法,包括:
获取待识别表格;
基于预先配置的识别参数,对所述待识别表格进行识别,得到所述待识别表格与目标表格的表头匹配结果和表内对应关系;
根据所述表头匹配结果和所述表内对应关系,从所述待识别表格中获取到所述目标表格的内容并存储。
可选的,所述识别参数包括目标字段和有效关联阈值。
可选的,所述基于预先配置的识别参数,对所述待识别表格进行识别,包括:
获取所述待识别表格的第一行与第一列,根据所述目标字段和所述有效关联阈值,从所述第一行和所述第一列中确定与所述目标字段为对应关系的字段;
通过与所述目标字段为对应关系的字段,确定所述第一行中与所述目标字段为对应关系的字段的第一数量,以及,确定所述第一列中与所述目标字段为对应关系的字段的第二数量;
通过所述第一数量和所述第二数量,确定所述表头匹配结果;
根据确定的所述表头匹配结果和表头中与所述目标字段为对应关系的字段,得到表内对应关系。
可选的,所述根据所述目标字段和所述有效关联阈值,从所述第一行和所述第一列中确定与所述目标字段为对应关系的字段,包括:
针对所述第一行和所述第一列中的各个字段,执行如下操作:计算当前字段与所述目标字段的关联值;根据所述关联值和所述有效关联阈值,判断当前字段与所述目标字段是否匹配;若当前字段与所述目标字段匹配,则当前字段与所述目标字段为对应关系。
可选的,所述识别参数还包括所述目标字段的同义字段;
所述计算当前字段与所述目标字段的关联值,包括:
若当前字段与所述目标字段相同,或者,当前字段与所述目标字段的同义字段相同,则确定所述关联值为10;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学;成都精准云科技有限公司,未经电子科技大学;成都精准云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011581859.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:使用消息总线接口的PHY重新校准
- 下一篇:配光元件、配光模组及光源模块