[发明专利]信息提取方法、装置、设备及存储介质在审
申请号: | 202010902717.0 | 申请日: | 2020-09-01 |
公开(公告)号: | CN114120345A | 公开(公告)日: | 2022-03-01 |
发明(设计)人: | 刘清晨 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团有限公司 |
主分类号: | G06V30/413 | 分类号: | G06V30/413;G06V30/194;G06N3/04;G06N3/08 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 张静;张颖玲 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信息 提取 方法 装置 设备 存储 介质 | ||
本发明公开了一种信息提取方法、装置、设备及存储介质。其中,所述方法包括:采集表格图像;利用预设第一网络模型,对所述表格图像中表格区域进行分割和定位,得到至少两个单元格;针对所述至少两个单元格中每个单元格,结合预设第二网络模型,确定相应单元格中的文本行;利用预设第三网络模型,对所述至少两个单元格中的文本行分别进行识别,得到识别文本;确定所述至少两个单元格对应的表格结构,并利用所述表格结构和所述识别文本,形成表格信息。
技术领域
本发明涉及图像处理领域,尤其涉及一种信息提取方法、装置、设备及存储介质。
背景技术
随着网络中数据量的激增,如何从大量数据中提取信息变得至关重要。实际应用时,可以将大量数据存储在表格中,当表格中存储的数据越来越多时,表格的结构也越来越复杂。随着表格的结构越来越复杂,表格中存储数据的方式可以多种多样,且表格中存储数据的类型也多种多样,因此,如何准确地从表格中提取文本信息成了关键问题。
发明内容
有鉴于此,本发明实施例期望提供一种信息提取方法、装置、设备及存储介质。
本发明实施例的技术方案是这样实现的:
本发明的至少一个实施例提供了一种信息提取方法,所述方法包括:
采集表格图像;
利用预设第一网络模型,对所述表格图像中表格区域进行分割和定位,得到至少两个单元格;
针对所述至少两个单元格中每个单元格,结合预设第二网络模型,确定相应单元格中的文本行;
利用预设第三网络模型,对所述至少两个单元格中的文本行分别进行识别,得到识别文本;
确定所述至少两个单元格对应的表格结构,并利用所述表格结构和所述识别文本,形成表格信息。
此外,根据本发明的至少一个实施例,所述利用预设第一网络模型,对所述表格图像中表格区域进行分割和定位,得到至少两个单元格,包括:
将所述表格图像作为预设第一网络模型的输入,对所述表格图像进行输入到输出的映射,得到所述表格图像中表格区域的特征图和特征图信息;所述特征图信息表征所述表格区域中每个特征点对应的线段类型;
利用所述特征图信息,从所述特征图中确定对应至少两种线段类型的多个特征点的坐标;并利用所述多个特征点的坐标,形成至少两个单元格;
从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格。
此外,根据本发明的至少一个实施例,所述从形成的至少两个单元格中选取满足第一预设条件的至少两个单元格,包括:
针对所述至少两个单元格中每个单元格,判断相应单元格的高度是否小于或等于高度阈值且相应单元格的长度是否小于或等于长度阈值;
当确定相应单元格的高度小于或等于高度阈值且相应单元格的长度小于或等于长度阈值时,丢弃相应单元格;
将所述至少两个单元格中剩余的至少两个单元格作为满足第一预设条件的至少两个单元格。
此外,根据本发明的至少一个实施例,所述针对所述至少两个单元格中每个单元格,结合预设第二网络模型,确定相应单元格中的文本行,包括:
针对所述至少两个单元格中每个单元格,结合预设第二网络模型,确定相应单元格包含的至少两个第一文本框;
从所述至少两个第一文本框中选取满足第二预设条件的至少两个第二文本框;
对所述至少两个第二文本框内的文本进行拼接,得到文本行。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团有限公司,未经中国移动通信有限公司研究院;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010902717.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:气溶胶生成装置以及红外加热器
- 下一篇:一种地图绘制方法及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置