[发明专利]一种基于Bert的护照版面分析方法在审

专利信息
申请号: 202210409869.6 申请日: 2022-04-19
公开(公告)号: CN115048511A 公开(公告)日: 2022-09-13
发明(设计)人: 李春霞;董文君;郭涛远;王康;朱和军 申请(专利权)人: 南京烽火星空通信发展有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/30;G06K9/62
代理公司: 南京经纬专利商标代理有限公司 32200 代理人: 陆志斌
地址: 210019 江苏省南京市建*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 bert 护照 版面 分析 方法
【权利要求书】:

1.一种基于Bert的护照版面分析方法,包括基于大规模无标注语料库训练出Bert预训练语言模型,Bert预训练过程包括两个基本的预训练任务:整词掩码语言模型WWM和下一个句子预测NSP,其特征在于:

所述词掩码语言模型WWM的建模方法包括如下步骤:

步骤1、对输入文本序列进行掩码处理,采用15%的掩码比例,即输入文本序列中15%的token会被掩码;

步骤2、tokenization处理,对经过掩码处理后的文本序列添加特殊标记、进行补齐、截断操作后得到输入文本序列,如果输入文本序列T的长度n小于Bert的最大序列长度N,N=128,则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N;反之,如果输入文本序列T的长度大于N,则需要将T截断至长度为N;

步骤3、获取Bert的输入表示E,对于给定的文本序列T,Bert的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成;

步骤4、对输入表示E进行多层双向Transformer编码块,并借助自注意力机制充分学习文本序列中每个token之间的语义关联;

步骤5、根据WWM预训练任务的输出层以及损失函数,预测掩码位置;

所述下一个句子预测NSP的建模方法包括如下步骤:

步骤6、NSP预训练任务的输出层以及损失函数;

步骤7、进行单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模,且单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致,与NSP任务不同的是,单句护照文本分类任务的输入文本序列是由单个句子组成;

步骤8、单句护照文本分类任务的输出层及损失函数,使用[CLS]位的隐含层表示进行文本类别的预测;

步骤9、单句护照文本分类任务的数据增强,对训练集中的每一个样本,都执行如下四种数据增强操作:

(1)随机字删除:随机删除文本序列中15%~30%的字;

(2)随机交换邻近字:随机选择文本序列中两个邻近的字并交换其位置;

(3)随机同义词替换:随机选取文本序列中15%~30%的词,随机选取其同义词并替换;

(4)随机插入:随机选取文本序列中不属于停用词集的词,求出其随机同义词并插入文本序列中的随机位置。

2.根据权利要求1所述的一种基于Bert的护照版面分析方法,其特征在于:所述步骤1中对输入文本序列的掩码操作有以下三种:

(1)以80%的概率替换为[MASK]标记;

(2)以10%的概率替换为词表中的任意一个随机token;

(3)以10%的概率保持不变;

具体地,假设原始输入文本序列为T=Tok1Tok2...TokN,其中Toki表示输入文本序列中的第i个token,随机选取其中15%的token,对选取的token以及其所在整词的其它token都进行掩码,得到掩码后的输入文本序列为Tok′1Tok′2...Tok′N,其中Tok′i表示经过掩码处理后的第i个token。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210409869.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top