[发明专利]一种问答任务的下游任务处理方法及模型有效

申请号：	202011539404.X	申请日：	2020-12-23
公开（公告）号：	CN112732879B	公开（公告）日：	2022-05-10
发明（设计）人：	王勇;雷冲;陈秋怡	申请（专利权）人：	重庆理工大学
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06N3/04;G06N3/08
代理公司：	重庆博凯知识产权代理有限公司 50212	代理人：	胡逸然
地址：	400054 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种问答任务下游处理方法模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种问答任务的下游任务处理方法及模型，得到关键信息感知的上下文表示H_CKey以及关键信息感知的问题表示H_QKey，生成问题感知的上下文表示G；基于G计算更新向量z和记忆权重g，更新G得到输出向量G_g；生成上下文粒度向量G_C及序列粒度向量G_CLS，生成输出向量C_out，使用softmax计算上下文中每个字作为答案起止位置的概率，抽取概率最大的连续子序列作为答案。本发明提出了双向层叠注意力机制，并且构造出以精读和略读为一个整体的机制以及基于粒计算思想的多粒度模块，使得模型有效地关注和筛选有效信息，并在多种粒度下更好地理解文本，给出更加精确的答案，性能在基线模型的基础上取得了新的进步。

技术领域

本发明属于自然语言处理技术领域，具体涉及一种问答任务的下游任务处理方法及模型。

背景技术

机器阅读理解是自然语言处理中一项极具挑战的任务，旨在根据给定的上下文来确定问题的正确答案。常见的机器阅读理解任务按照答案形式分为完形填空、多项选择、片段抽取和自由回答。而最新发展起来的预训练语言模型，凭借其强大的文本的表征能力，在各项自然语言理解任务中取得了一系列的成功。这些预训练语言模型作为深度学习语言模型的编码器，用于提取相关文本的语言关联特征，并结合针对特定任务的下游数据处理结构进行微调。随着预训练语言模型的发展取得的巨大成功，人们将更多的注意力聚焦于深度学习语言模型的编码器端，导致针对特定任务定制的下游处理技术的发展进入瓶颈。虽然人们可以直接从结构类似的多种强大的编码器中获益，但是，把大规模语料库中蕴含的一般知识编码应用到拥有超大规模参数的语言模型，这是一件相当耗费时间和资源的事情。且由于目前的语言表征编码技术的发展缓慢，限制了预训练语言模型性能的进一步提升。这些均凸显了发展特定任务下的下游处理技术的重要性。

综上所述，现有的深度学习语言模型有如下不足之处：(1)会重视文本中不重要的部分，而忽略重要的部分；(2)存在过稳定的现象，即容易受到与问题存在多个相同词汇的文本中的干扰句的影响，仅能够通过文字本身进行匹配，而未能进行语义匹配。

因此，如何使模型关注文本中的关键信息以及帮助模型跳出过于关注文本局部信息的偏好成为了本领域技术人员急需解决的问题。

发明内容

针对现有技术中存在的上述不足，本发明实际需要解决的问题是：使模型关注文本中的关键信息以及帮助模型跳出过于关注文本局部信息的偏好。

为解决上述技术问题，本发明采用了如下的技术方案：

一种问答任务的下游任务处理方法，包括如下步骤：

S1、将问题与上下文输入预训练语言模块，获取上下文的语言关联特征；

S2、利用双向注意力机制基于上下文的语言关联特征得到关键信息感知的上下文表示H_CKey以及关键信息感知的问题表示H_QKey；

S3、利用双向注意力流基于关键信息感知的上下文表示H_CKey以及关键信息感知的问题表示H_QKey，得到问题感知的上下文表示G；

S4、利用门机制基于问题感知的上下文表示G计算更新向量z和记忆权重g，利用更新向量z和记忆权重g更新问题感知的上下文表示G得到输出向量G_g；

S5、利用粒计算基于上下文的语言关联特征生成上下文粒度向量G_C及序列粒度向量G_CLS，基于上下文粒度向量G_C、序列粒度向量G_CLS及输出向量G_g生成多角度理解上下文以及上下文总体与局部的关系的输出向量C_out；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。