[发明专利]基于人工智能的表格检测方法、装置、电子设备及介质在审

专利信息
申请号: 202111222463.9 申请日: 2021-10-20
公开(公告)号: CN113936287A 公开(公告)日: 2022-01-14
发明(设计)人: 雷田子 申请(专利权)人: 平安国际智慧城市科技股份有限公司
主分类号: G06V30/413 分类号: G06V30/413;G06V10/25;G06V10/774;G06V10/82;G06K9/62;G06N3/04;G06N3/08
代理公司: 深圳市赛恩倍吉知识产权代理有限公司 44334 代理人: 严林;刘丽华
地址: 518000 广东省深圳市前海深港合*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 人工智能 表格 检测 方法 装置 电子设备 介质
【说明书】:

发明涉及人工智能技术领域,提供一种基于人工智能的表格检测方法、装置、电子设备及介质,所述方法包括:响应于对表格图片中的表格进行检测的指令,调用预先训练的表格区域检测模型检测所述表格图片中的表格区域;提取所述表格区域中的文本行,并确定所述文本行的位置向量;根据所述文本行的文本特征向量及所述文本行的位置向量生成目标网络结构图;输入所述目标网络结构图至预先训练的图卷积神经网络中,并获取所述图卷积神经网络输出的任意两个文本行的文本实体标签;根据所述文本实体标签确定所述表格区域中的单元格。本发明能够高效地从表格图片中检测到表格,表格的检测准确度较高。

技术领域

本发明涉及人工智能技术领域,具体涉及一种基于人工智能的表格检测方法、装置、电子设备及介质。

背景技术

表格是各类文档中常见的页面对象,要正确提取出表格中的数据,首先要进行表格检测。表格检测任务是从一个图片中检测出表格所在的区域,而表格结构识别是在拿到一个表格后,将表格的内容与逻辑结构识别出来。

目前基于布局分析和规则的方法及基于深度学习的方法较为流行,然而发明人在实现本发明的过程中发现,由于表格大小、种类与样式复杂多样,比如不同表格中的行列合并方法、背景填充以及文本类型等均不相似,使用基于布局分析和规则的方法通过分析文档中表格的布局特征,然后使用这些特征来制定一些规则进而提取表格中的内容,过程非常繁杂而且泛化性能较差。而基于深度学习的方法需要大量的标注数据对模型进行训练,而文档中的表格通常存在缺少规则以及行、列等未知信息,因此识别准确度较低。

发明内容

鉴于以上内容,有必要提出一种基于人工智能的表格检测方法、装置、电子设备及介质,能够高效地从表格图片中检测到表格并识别出表格中的内容。

本发明的第一方面提供一种基于人工智能的表格检测方法,所述方法包括:

响应于对表格图片中的表格进行检测的指令,调用预先训练的表格区域检测模型检测所述表格图片中的表格区域;

提取所述表格区域中的文本行,并确定所述文本行的位置向量;

根据所述文本行的文本特征向量及所述文本行的位置向量生成目标网络结构图;

输入所述目标网络结构图至预先训练的图卷积神经网络中,并获取所述图卷积神经网络输出的任意两个文本行的文本实体标签;

根据所述文本实体标签确定所述表格区域中的单元格。

根据本发明的一个可选的实施方式,所述表格区域检测模型的训练过程包括:

初始化随机数集合,所述随机数集合中的每个随机数小于预设阈值;

将所述随机数集合中的随机数分配给卷积神经网络的卷积层,得到初始表格区域检测模型;

获取样本表格图片,并获取所述样本表格图片对应的标注表格信息;

将所述样本表格图片及对应的所述标注表格信息分别作为所述初始表格区域检测模型的输入和期望输出,对所述初始表格区域检测模型进行训练,得到所述表格区域检测模型。

根据本发明的一个可选的实施方式,所述获取样本表格图片,并获取所述样本表格图片对应的标注表格信息包括:

确定所述样本表格的表格区域以及所述样本表格的单元格信息和文本信息;

根据所述表格区域、所述单元格信息和所述文本信息,生成表格图片;

将所述表格图片确定为所述样本表格图片,并将所述单元格信息确定为标注表格信息。

根据本发明的一个可选的实施方式,所述确定所述文本行的位置向量包括:

获取所述文本行对应的文本框的顶点坐标;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安国际智慧城市科技股份有限公司,未经平安国际智慧城市科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111222463.9/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top