[发明专利]对房产证图像进行结构化信息提取的方法在审

专利信息
申请号: 202010186069.3 申请日: 2020-03-17
公开(公告)号: CN111460927A 公开(公告)日: 2020-07-28
发明(设计)人: 李清勇;赵鹏;蔡斯琪;薛文元 申请(专利权)人: 北京交通大学;赛尔网络有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06T7/11;G06T7/136
代理公司: 北京市商泰律师事务所 11255 代理人: 黄晓军
地址: 100044 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 房产证 图像 进行 结构 信息 提取 方法
【说明书】:

发明提供了一种对带表格的图像进行结构化信息提取的方法。该方法包括:提取带表格的图像中的表格区域,对表格区域进行单元格分割;对单元格进行文本行检测和归类;对文本行进行单字分割并识别单字内容,拼接得到文本行内容,根据所述文本行的内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。本发明实施例的方法可以有效地提取出房产证图像等带表格的图像中的表格区域、文本行中的单字以及结构化信息。本发明可以帮助人们在进行二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学、出国旅游办签证等行为时,实现自动化的业务流程。

技术领域

本发明涉及图像处理技术领域,尤其涉及一种对带表格的图像进行结构化信息提取的方法。

背景技术

房产证在居民日常生活中发挥着重要的作用,大到二手房交易、房产证抵押、贷款买车、落户、适龄儿童入学,小到出国旅游办签证,房产证成为社会信用的证明之一。当进行房产证的抵押、贷款等相关活动时,需要收集证件上的相关信息进行备案。

在房屋的信息采集方面,传统的房产证复印、人工录入数据的方式,无法实现自动化的业务流程,因速度慢、耗时长、易出错等不足无法满足实际应用场景的需求。而通过OCR(Optical Character Recognition,光学字符识别)文本识别技术,快速采集录入证件信息,一键保存入库,替代传统手工录入方式,可以在很大程度上解决房产证件上的数据采集遇到的各种难题。

在深度学习方法出现之前,基于传统的人工标记特征是主要的OCR文字识别方法,其中包括基于连通区域以及基于HOG(Histogram of Oriented Gradient,方向梯度直方图)的检测框描述算法。随着硬件设备的更新换代,GPU(Graphics Processing Unit,图形处理器)的出现使得计算机可以处理大规模数据集,机器学习、深度学习等一系列新技术得到了飞速发展。在基于深度学习的方法中,目前比较成熟的OCR文本识别过程主要包括文本检测和文本识别两部分。

现有技术中的一种对图像进行文本检测的方法为:在图像中寻找包含文本的区域。这部分的算法实现大多数是基于候选区域的,一般先借助Faster R-CNN(Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks,更快的R-CNN:基于区域建议网络的实时目标检测方法)或者SSD(SSD:Single Shot MultiBoxDetector,单阶段多框检测器)得到许多个候选区域,然后训练模型对候选区域分类,最后做细致处理得到准确的文本区域。检测到了准确的文本区域之后,文本识别是指识别区域中的文本,文本识别可以先将文本分割成单字再识别,也可以采用序列识别的方式。

上述现有技术中的对图像进行文本检测的方法的缺点为:该方法只能进行全版面的文本检测,无法进行后续的文本结构化信息提取。

发明内容

本发明的实施例提供了一种对带表格的图像进行结构化信息提取的方法,以克服现有技术的问题。

为了实现上述目的,本发明采取了如下技术方案。

一种对带表格的图像进行结构化信息提取的方法,包括:

提取带表格的图像中的表格区域,对表格区域进行单元格分割;

对单元格进行文本行检测和归类;

对文本行进行单字分割并识别单字内容,拼接得到文本行内容,根据所述文本行内容和所述表格区域的单元格分割结果得到所述带表格的图像中的结构化信息。

优选地,所述的提取带表格的图像中的表格区域,包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学;赛尔网络有限公司,未经北京交通大学;赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010186069.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top