[发明专利]一种基于预训练模型的阅读理解去偏方法在审
申请号: | 202211222708.2 | 申请日: | 2022-10-08 |
公开(公告)号: | CN115526148A | 公开(公告)日: | 2022-12-27 |
发明(设计)人: | 于舒娟;吴梦洁;赵阳;张虎;张昀 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F40/126 | 分类号: | G06F40/126;G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 训练 模型 阅读 理解 偏方 | ||
本发明提供一种基于预训练模型的阅读理解去偏方法,包括:以预训练模型BERT嵌入层为基础构建文本表示层,设定模型输入为文章‑问题构成的句子对,将输入句子映射为句子向量;对位置编码进行两次随机正则化操作,得到两个随机子模型并计算KL散度,评估其输出分布差异性,更新句子向量输入BERT编码器;将BERT编码器最后一个隐层输出通过全连接层与分类器,以交叉熵损失与KL散度之和计算样本的预测损失,在模型训练过程中根据样本的预测损失优化预训练参数,去除阅读理解位置偏差。本发明利用dropout技术正则化位置编码的基础上,通过在训练中拉低两次dropout产生的随机子模型分布的KL散度来约束随机性,提高模型对位置偏差鲁棒性的同时恢复答案预测准确度。
技术领域
本发明属于自然语言处理中的机器阅读理解领域,具体涉及一种基于预训练模型的阅读理解去偏方法。
背景技术
近年来,深度学习技术的发展不断推动着自然语言处理领域的研究革新。机器阅读理解是自然语言处理的重要课题,其旨在利用算法让机器理解文章语义并回答相关问题。大数据时代海量互联网信息的增长促进了阅读理解任务的实际应用价值,其中包括但不限于:提升搜索引擎查询效果,使用智能客服提供简单问答服务,从而提升用户使用体验与平台服务效率。
主流的阅读理解模型主要基于端到端的神经网络与预训练加微调的方式。其中端到端的神经网络通过CNN或RNN网络架构编码输入的文本序列,并使用注意力机制或自注意力机制捕获文章与问题之间的信息。随着对文本特征表示方式更加深入的研究,基于大规模语料的预训练语言模型进一步推动了机器阅读理解技术的发展。BERT预训练模型[Kenton J D M W C,Toutanova L K.BERT:Pre-training of Deep BidirectionalTransformers for Language Understanding[C]//Proceedings of NAACL-HLT.2019:4171-4186.]创新性的加入mask prediction及next sentence prediction两项预训练任务更好的捕捉了语义信息,并在SQuAD1.1上取得了优异的结果,在评价指标上的表现超越了人类,自此开启了新式的预训练语言模型时代。
然而,抽取式阅读理解这种建立在预测答案位置上的模式具有一定的弊端。实验发现当在具有偏态的数据集上训练时,模型的预测性能将出现明显下降,由此证实基于预测答案起始位置的模型存在严重的偏差,这种现象被称作位置偏差。这表明,尽管现有的模型在很多标准评测集上达到了超越人类的准确性,但在一些经过特殊处理,或是含有很小扰动的样本上,模型的预测结果可能出现大幅下降。文献[Ko M,Lee J,Kim H,et al.Lookat the First Sentence:Position Bias in Question Answering[C]//Proceedings ofthe 2020Conference on Empirical Methods in Natural Language Processing(EMNLP).2020:1109-1121.]提出了基于集成的去偏方式,它使用a product of expert将预定义偏差模型和预训练模型的对数似然结合起来,其中偏差模型定义为预先计算好的答案先验。
但集成模式通过一个额外的偏差模型来完成位置偏差的平衡,并未完全考虑目标模型本身的鲁棒性优化。
发明内容
本发明所要解决的技术问题是缓解阅读理解训练过程的位置偏差问题,本发明提出一种基于预训练模型的阅读理解去偏方法。本发明基于预训练模型BERT,在利用dropout技术正则化位置编码的基础上,通过在训练中拉低两次dropout产生的随机子模型分布的KL散度来约束随机性,提高模型对位置偏差鲁棒性的同时恢复答案预测准确度。
为达到上述目的,本发明提供一种基于预训练模型的阅读理解去偏方法,包含步骤如下:
以预训练模型BERT嵌入层为基础构建文本表示层,设定模型输入为文章-问题对构成的句子对,将输入句子映射为句子向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211222708.2/2.html,转载请声明来源钻瓜专利网。