[发明专利]一种基于Bert的护照版面分析方法在审
申请号: | 202210409869.6 | 申请日: | 2022-04-19 |
公开(公告)号: | CN115048511A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 李春霞;董文君;郭涛远;王康;朱和军 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/30;G06K9/62 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bert 护照 版面 分析 方法 | ||
本发明公开了一种基于Bert的护照版面分析方法,采用“预训练+精调”的自然语言处理新范式,基于大规模无标注语料库训练出一个Bert预训练语言模型,其中的NSP预训练任务可以学到通用的文本语义表示,将Bert预训练语言模型作为可训练的特征抽取器,应用到有监督的下游任务中,并参与下游任务的训练,之后根据具体的护照文本分类任务,使用护照文本数据进行精调,训练得到一个基于Bert的文本分类模型。本发明输出结构化后的文本内容,使用文本的语义表示进行文本分类,可以不用受限于版面类型和应用场景,实现任意版面及通用场景下的护照版面分析,并可以将此方法应用于其它类型的证件。
技术领域
本发明涉及光学字符识别领域、自然语言处理技术领域,具体为 一种基于Bert的护照版面分析方法。
背景技术
当今社会由于信息化、数字化的发展,对护照等证件进行自动化 信息提取的需求与日俱增。护照识别技术,即基于ocr(光学字符识 别)技术实现对护照图片中信息的自动化识别。随着深度学习的发展, ocr技术日趋成熟,不仅在实验中获得良好效果,在实际应用中也已 获得广泛认可。依托ocr技术,目前市面上已经出现很多应用级的商 业化护照识别软件。这些护照识别软件在多个行业中得到了应用,特 别是边防检查站、海关、机场、出入境管理、旅行社等行业中,更是 发挥了巨大的作用。
一个实用且完备的ocr系统应该包含两个重要组件,即内容识别 和结构识别。内容识别的核心是对文档图像中所包含的文字内容进行 高效、高精度的识别。结构识别的核心是将识别出的非结构化文字内 容进行结构化,从而实现对文档图像的版面重构和复原,这个过程也 叫做版面分析。
护照等证件类版面,属于具有固定模板的结构化版面,这种版面 具有较强的规则性且前背景可分性强。现有针对护照进行版面分析的 方法可以分为两种:一种是基于大量先验规则的方法;一种是基于计 算机视觉的方法。基于大量先验规则的方法,是在识别出护照图像中 的关键文本字段之后,通过文本的内容特点和位置关系提取关键信 息,核心在于设计提取关键信息的规则。目前已有的基于计算机视觉 的方法主要有两种:第一种是基于模版匹配的方法,通过对护照图像 进行文本检测,提取出目标区域的特征,将目标区域的特征与模版图 像中提取的标签特征进行匹配,以获取目标区域的类别标签,核心在于模版选取、特征提取以及特征匹配算法的设计;第二种是基于目标 检测的方法,即在定位目标的同时进行分类。
但是上述方法在实际运用时,常出现如下问题:
1、基于大量先验规则的版面分析方法,规则编写逻辑复杂,并 且关键字段粘连或过切分会影响最终规则的匹配。另外先验规则只适 用于特定的场景下,比如测试样本的版面是先验规则不符合的或者样 本中有部分关键字段被遮挡,都会导致先验规则无法适用;
2、基于模版匹配的版面分析方法,只适用于版面样式单一的证 件,如果版面样式过多,则逻辑会变得十分复杂,并且鲁棒性较差;
3、基于目标检测的版面分析方法,只能在特定场景下获得较好 的效果,需要各个关键字段的文字内容和外观样式变化较小并且字段 与字段之间的相对位置关系不变,另外,还需要在目标检测之前对图 像进行旋转角度矫正。
因此我们对此做出改进,提出一种基于Bert的护照版面分析方 法。
发明内容
为了解决上述技术问题,以更好地契合护照ocr系统对于版面多 样性以及文本结构化输出的市场需求,本发明提出了一种基于Bert (Bidirectional EncoderRepresentation from Transformers)的护照版面 分析方法,具体由以下技术手段所达成:
本发明一种基于Bert的护照版面分析方法,包括基于大规模无 标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个 基本的预训练任务:整词掩码语言模型WWM和下一个句子预测 NSP,其特征在于:
所述词掩码语言模型WWM的建模方法包括如下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210409869.6/2.html,转载请声明来源钻瓜专利网。