[发明专利]一种日期提取方法、装置、计算机设备及存储介质在审

专利信息
申请号: 202111049925.1 申请日: 2021-09-08
公开(公告)号: CN113762160A 公开(公告)日: 2021-12-07
发明(设计)人: 程佳宇;陈永红;张军涛;王国鹏 申请(专利权)人: 深圳前海环融联易信息科技服务有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06K9/20;G06F40/295
代理公司: 深圳市精英专利事务所 44242 代理人: 武志峰
地址: 518000 广东省深圳市前海深港合作区前*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 日期 提取 方法 装置 计算机 设备 存储 介质
【说明书】:

发明公开了一种日期提取方法、装置、计算机设备及存储介质,该方法包括:获取包含待提取日期的文件图像,对所述文件图像进行预处理;对文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期。本发明结合待提取提起的关联信息对待提取日期所在文本段进行定位,并通过OCR识别和NER技术对文件图像或者文本段进行识别标注,可以提高对于日期的提取精度和提取效率。

技术领域

本发明涉及计算机技术领域,特别涉及一种日期提取方法、装置、计算机设备及存储介质。

背景技术

在各类合同的审阅过程中,待人工处理的材料往往具有以下两大鲜明的特点:(1)合同类型与覆盖的要素因行业的不同而多变,包括但不限于房地产、医疗、制造业、采购等行业,这就提高了对人工审核相关材料的门槛,同时也加大了审核工作的难度;(2)近似要素过多,且包含手写体类型、掺杂其他印章、水印等干扰信息,增加了要素精准提取的难度。关于合同中各种日期的提取方式,普通分为两种类型:

第一种是基于业务逻辑梳理关键字或关键句的定位规则,然后结合正则等方式匹配符合要求的日期格式,作为最终的候选日期。同时对于多个候选日期,结合相关业务规则选择最终的目标要素值。

第二种应用较为广泛的是结合深度学习进行日期要素提取,即通过深度学习模型预测得到日期对应的目标值。

针对上文提到的第一种现有方法,其缺陷首先是虽然提取日期的精度能够得到一定程度的保证,但是方法几乎没有鲁棒性,即换一种合同样式,或者换一种日期的上下文表述就不能做到提取效果达到预期。

针对上文提到的第二种现有方法,因合同中日期类的要素居多,如开工日期、竣工日期、签约日期、有效期等,且有些日期类要素还频繁出现多于一个的情况,这就导致模型很难去识别真正的目标要素,从而导致提取精度较差。

发明内容

本发明实施例提供了一种日期提取方法、装置、计算机设备及存储介质,旨在提高对于日期的提取精度和提取效率。

第一方面,本发明实施例提供了一种日期提取方法,包括:

获取包含待提取日期的文件图像,对所述文件图像进行预处理;

对经过预处理的文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;

利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;

通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;

根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期。

第二方面,本发明实施例提供了一种日期提取装置,包括:

预处理单元,用于获取包含待提取日期的文件图像,对所述文件图像进行预处理;

第一获取单元,用于对经过预处理的文件图像进行OCR识别,并结合待提取日期的关联信息获取包含待提取日期的目标文本段;

标签标注单元,用于利用NER技术对所述目标文本段进行标签标注,并输出得到日期文本段;

后处理单元,用于通过分类模型对所述日期文本段进行分类预测,并基于分类预测结果对所述日期文本段进行修正及后处理;

日期提取单元,用于根据修正及后处理结果,获取待提取日期的目标要素,并根据所述目标要素提取日期。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海环融联易信息科技服务有限公司,未经深圳前海环融联易信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111049925.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top