[发明专利]一种基于Bert的护照版面分析方法在审

申请号：	202210409869.6	申请日：	2022-04-19
公开（公告）号：	CN115048511A	公开（公告）日：	2022-09-13
发明（设计）人：	李春霞;董文君;郭涛远;王康;朱和军	申请（专利权）人：	南京烽火星空通信发展有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/30;G06K9/62
代理公司：	南京经纬专利商标代理有限公司 32200	代理人：	陆志斌
地址：	210019 江苏省南京市建***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bert 护照版面分析方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Bert的护照版面分析方法，包括基于大规模无标注语料库训练出Bert预训练语言模型，Bert预训练过程包括两个基本的预训练任务：整词掩码语言模型WWM和下一个句子预测NSP，其特征在于：

所述词掩码语言模型WWM的建模方法包括如下步骤：

步骤1、对输入文本序列进行掩码处理，采用15％的掩码比例，即输入文本序列中15％的token会被掩码；

步骤2、tokenization处理，对经过掩码处理后的文本序列添加特殊标记、进行补齐、截断操作后得到输入文本序列，如果输入文本序列T的长度n小于Bert的最大序列长度N，N＝128，则需要将补齐标记[PAD]拼接在输入文本序列后以达到Bert的最大序列长度N；反之，如果输入文本序列T的长度大于N，则需要将T截断至长度为N；

步骤3、获取Bert的输入表示E，对于给定的文本序列T，Bert的输入表示由其对应的词向量序列、段向量序列和位置向量序列相加而成；

步骤4、对输入表示E进行多层双向Transformer编码块，并借助自注意力机制充分学习文本序列中每个token之间的语义关联；

步骤5、根据WWM预训练任务的输出层以及损失函数，预测掩码位置；

所述下一个句子预测NSP的建模方法包括如下步骤：

步骤6、NSP预训练任务的输出层以及损失函数；

步骤7、进行单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模，且单句护照文本分类任务tokenization处理、Bert输入表示和Bert编码器建模与NSP预训练任务的原理一致，与NSP任务不同的是，单句护照文本分类任务的输入文本序列是由单个句子组成；

步骤8、单句护照文本分类任务的输出层及损失函数，使用[CLS]位的隐含层表示进行文本类别的预测；

步骤9、单句护照文本分类任务的数据增强，对训练集中的每一个样本，都执行如下四种数据增强操作：

(1)随机字删除：随机删除文本序列中15％～30％的字；

(2)随机交换邻近字：随机选择文本序列中两个邻近的字并交换其位置；

(3)随机同义词替换：随机选取文本序列中15％～30％的词，随机选取其同义词并替换；

(4)随机插入：随机选取文本序列中不属于停用词集的词，求出其随机同义词并插入文本序列中的随机位置。

2.根据权利要求1所述的一种基于Bert的护照版面分析方法，其特征在于：所述步骤1中对输入文本序列的掩码操作有以下三种：

(1)以80％的概率替换为[MASK]标记；

(2)以10％的概率替换为词表中的任意一个随机token；

(3)以10％的概率保持不变；

具体地，假设原始输入文本序列为T＝Tok₁Tok₂...Tok_N，其中Tok_i表示输入文本序列中的第i个token，随机选取其中15％的token，对选取的token以及其所在整词的其它token都进行掩码，得到掩码后的输入文本序列为Tok′₁Tok′₂...Tok′_N，其中Tok′_i表示经过掩码处理后的第i个token。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司，未经南京烽火星空通信发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210409869.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种新能源场站与储能电站合作博弈的储能优化调度方法
下一篇：薄壁多孔型材专用分流模

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Bert的护照版面分析方法在审

专利文献下载