[发明专利]一种基于Bert的护照版面分析方法在审

专利信息
申请号: 202210409869.6 申请日: 2022-04-19
公开(公告)号: CN115048511A 公开(公告)日: 2022-09-13
发明(设计)人: 李春霞;董文君;郭涛远;王康;朱和军 申请(专利权)人: 南京烽火星空通信发展有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 陆志斌
地址: 210019 江苏省南京市建*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 护照 版面 分析 方法
【说明书】:

发明公开了一种基于Bert的护照版面分析方法,采用“预训练+精调”的自然语言处理新范式,基于大规模无标注语料库训练出一个Bert预训练语言模型,其中的NSP预训练任务可以学到通用的文本语义表示,将Bert预训练语言模型作为可训练的特征抽取器,应用到有监督的下游任务中,并参与下游任务的训练,之后根据具体的护照文本分类任务,使用护照文本数据进行精调,训练得到一个基于Bert的文本分类模型。本发明输出结构化后的文本内容,使用文本的语义表示进行文本分类,可以不用受限于版面类型和应用场景,实现任意版面及通用场景下的护照版面分析,并可以将此方法应用于其它类型的证件。

技术领域

本发明涉及光学字符识别领域、自然语言处理技术领域,具体为 一种基于Bert的护照版面分析方法。

背景技术

当今社会由于信息化、数字化的发展,对护照等证件进行自动化 信息提取的需求与日俱增。护照识别技术,即基于ocr(光学字符识 别)技术实现对护照图片中信息的自动化识别。随着深度学习的发展, ocr技术日趋成熟,不仅在实验中获得良好效果,在实际应用中也已 获得广泛认可。依托ocr技术,目前市面上已经出现很多应用级的商 业化护照识别软件。这些护照识别软件在多个行业中得到了应用,特 别是边防检查站、海关、机场、出入境管理、旅行社等行业中,更是 发挥了巨大的作用。

一个实用且完备的ocr系统应该包含两个重要组件,即内容识别 和结构识别。内容识别的核心是对文档图像中所包含的文字内容进行 高效、高精度的识别。结构识别的核心是将识别出的非结构化文字内 容进行结构化,从而实现对文档图像的版面重构和复原,这个过程也 叫做版面分析。

护照等证件类版面,属于具有固定模板的结构化版面,这种版面 具有较强的规则性且前背景可分性强。现有针对护照进行版面分析的 方法可以分为两种:一种是基于大量先验规则的方法;一种是基于计 算机视觉的方法。基于大量先验规则的方法,是在识别出护照图像中 的关键文本字段之后,通过文本的内容特点和位置关系提取关键信 息,核心在于设计提取关键信息的规则。目前已有的基于计算机视觉 的方法主要有两种:第一种是基于模版匹配的方法,通过对护照图像 进行文本检测,提取出目标区域的特征,将目标区域的特征与模版图 像中提取的标签特征进行匹配,以获取目标区域的类别标签,核心在于模版选取、特征提取以及特征匹配算法的设计;第二种是基于目标 检测的方法,即在定位目标的同时进行分类。

但是上述方法在实际运用时,常出现如下问题:

1、基于大量先验规则的版面分析方法,规则编写逻辑复杂,并 且关键字段粘连或过切分会影响最终规则的匹配。另外先验规则只适 用于特定的场景下,比如测试样本的版面是先验规则不符合的或者样 本中有部分关键字段被遮挡,都会导致先验规则无法适用;

2、基于模版匹配的版面分析方法,只适用于版面样式单一的证 件,如果版面样式过多,则逻辑会变得十分复杂,并且鲁棒性较差;

3、基于目标检测的版面分析方法,只能在特定场景下获得较好 的效果,需要各个关键字段的文字内容和外观样式变化较小并且字段 与字段之间的相对位置关系不变,另外,还需要在目标检测之前对图 像进行旋转角度矫正。

因此我们对此做出改进,提出一种基于Bert的护照版面分析方 法。

发明内容

为了解决上述技术问题,以更好地契合护照ocr系统对于版面多 样性以及文本结构化输出的市场需求,本发明提出了一种基于Bert (Bidirectional EncoderRepresentation from Transformers)的护照版面 分析方法,具体由以下技术手段所达成:

本发明一种基于Bert的护照版面分析方法,包括基于大规模无 标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个 基本的预训练任务:整词掩码语言模型WWM和下一个句子预测 NSP,其特征在于:

所述词掩码语言模型WWM的建模方法包括如下步骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210409869.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top