[发明专利]一种基于T5神经网络的可解释阅读理解模型在审

专利信息
申请号: 202310473471.3 申请日: 2023-04-27
公开(公告)号: CN116432632A 公开(公告)日: 2023-07-14
发明(设计)人: 朱新华;关波旭;提平;彭琦 申请(专利权)人: 广西师范大学
主分类号: G06F40/211 分类号: G06F40/211;G06N3/0455;G06N3/08;G06N5/04
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 覃永峰
地址: 541004 广*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 t5 神经网络 可解释 阅读 理解 模型
【权利要求书】:

1.一种基于T5神经网络的可解释阅读理解模型,其特征在于:将可解释阅读理解任务描述为一个四元组C,Q,A,E,其中C表示上下文,Q是基于上下文C提出的问题,A表示问题Q的答案,E表示答案A对应的证据,答案A和证据E均来自于上下文C中的连续的区域,并通过证据E对答案A进行解释;将基于T5神经网络的可解释阅读理解模型的结构定义为:

T5-InterMRC={编码器,证据解码器,答案解码器} (1)

其中,T5-InterMRC表示所提出的基于T5神经网络的可解释阅读理解模型,编码器和解码器都来源于T5神经网络,证据解码器用于生成证据,答案解码器用于生成答案,编码器用于对上下文和问题进行编码,证据解码器和答案解码器共享一个相同的编码器;

所述可解释阅读理解模型的处理模式为,首先通过上下文与问题生成解释答案的证据,然后再通过证据与问题生成答案;

所述T5-InterMRC模型按照以下步骤进行微调训练与推理:

S1.使用基于文本相似度的精确证据自动标注方法,对单一的阅读理解任务训练集中的样本进行证据自动标注,得到带有证据标签的可解释阅读理解任务训练集;所述单一的阅读理解任务训练集是指其样本只标注有答案标签;

S2.使用步骤S1标注的带有证据标签的可解释阅读理解训练集中的样本,对T5-InterMRC模型进行证据预测与答案预测的联合微调训练,得到微调成型的T5-InterMRC模型;

S3.使用步骤S2得到的微调成型的T5-InterMRC模型,对阅读理解语料的测试样本进行推理,同时得到测试样本的答案与证据;

所述T5神经网络是指Google公司Raffel等人提出的Text-to-Text TransferTransformer预训练神经网络生成模型;

所述步骤S1具体包括:

S1.1将上下文C划分为独立句子的集合S;

S1.2在S中筛选出包含答案的句子子集S′;

S1.3如果S中只有一个句子包含答案,即S′的长度为1,则将该包含答案的句子标注为证据标签,否则将答案A和问题Q拼接起来作为线索Clue,并分别计算线索Clue与S′中每个句子的相似度得分,最后将相似度得分最高的句子标注为证据标签;

S1.4对单一的阅读理解任务训练集中的每个样本重复步骤S1到步骤S3,最终得到包含证据标签的可解释阅读理解任务的训练集;

所述步骤S2具体包括:

S2.1证据预测,具体包括以下子步骤:

S2.1.1将训练样本的问题Q和上下文C连接起来,形成预测证据的输入文本T={q1,…,qn,c1,…,cm},其中{q1,…,qn}和{c1,…,cm}分别表示问题Q和上下文C中的词,n表示问题Q中词的个数,m表示上下文C中词的个数;然后将T输入到T5-InterMRC的词嵌入层,得到T的嵌入表示X,以及将X输入到T5-InterMRC的编码器中,获得T的隐藏表示H,计算过程如下:

X=Embed(T) (2)

H=Encoder(X)={h1,…,hn+m}∈R(n+m)×d (3)

其中,Encoder(·)表示T5-InterMRC的编码器,hi为T5-InterMRC编码器中的隐藏状态,d为T5神经网络中隐藏状态的维度;

S2.1.2将T的隐藏表示H输入到证据解码器EV_Decoder(·)中,获得预测证据第i个位置的分布向量

其中,V表示T5神经网络用到的词表,|V|表示词表的大小,为证据标签中的前i-1个证据词序列;

S2.1.3通过归一化指数函数Softmax获得预测证据的第i个位置的概率分布:

其中,最终通过下面公式获得预测证据的第i个词

其中,表示预测证据的第i个位置为词的概率,函数表示在V中求使得为最大值的词

S2.1.4重复步骤S2.1.2与步骤S2.1.3,直到预测的证据词总数超过最大输出长度200,或者出现预测的证据词为终止符’\s’时,完成证据预测过程,获得预测证据k为预测证据的长度;

S2.2答案预测,具体包括以下子步骤:

S2.2.1将问题Q与获得的预测证据拼接起来,形成预测答案的输入文本然后将T′输入到T5-InterMRC的词嵌入层,得到T′的嵌入表示X′,以及将X′输入到T5-InterMRC的编码器中,获得T′的隐藏表示H′:

X′=Embed(T′) (7)

H′=Encoder(T′)∈R(n+k)×d (8)

S2.2.2将隐藏表示H′输入到答案解码器QA_Decoder(·)中,获得预测答案的第j个位置的分布向量

其中,为答案标签中的前j-1个答案词序列;

然后,通过归一化指数函数Softmax获得预测答案的第j个位置的概率分布:

其中,最终通过如下公式获得预测答案的第j个词

其中,表示预测答案的第j个位置为词的概率,函数表示在V中求使得为最大值的词

S2.2.3重复步骤S2.2.2,直到预测的答案词总数超过最大输出长度200,或者出现预测的答案词为终止符’\s’时,完成答案预测过程,获得预测答案L为预测答案的长度;

S2.3计算损失,具体包括以下子步骤:

S2.3.1采用如下公式进行计算预测证据过程中产生的证据损失

其中,θ表示T5-InterMRC模型的所有参数,表示标准的交叉熵损失,和分别表示预测证据的开始位置和结束位置的损失,计算如下:

其中,E表示训练样本的证据标签,|E|表示E的长度,ei表示证据标签E中的第i个位置的标签词,e1表示证据标签E中的开始位置的标签词,e|E|表示证据标签E中的结束位置的标签词,表示预测证据中第i个位置为标签词ei的预测概率,为预测证据中第i个位置的概率分布,采用公式(4)计算;

S2.3.2采用如下公式进行计算预测答案过程中产生的答案损失

其中,A表示训练样本的答案标签,|A|表示A的长度,aj表示答案标签A中的第j个位置的标签词,表示预测答案中第j个位置为标签词aj的预测概率,为预测答案中第j个位置标的概率分布,采用公式(8)计算;

S2.3.3通过下面联合训练公式计算微调训练T5-InterMRC模型最终的损失

其中,λ为证据损失过滤器,计算公式为:

其中,δl、δr分别表示λ的左阈值和右阈值,且δl<δr,δl、δr为可学习的参数;

所述证据损失过滤器是指过滤掉不准确证据对答案选择的影响,即答案解码器的参数只有在证据损失小于右阈值δr时才会被更新。

2.根据权利要求1所述的基于T5神经网络的可解释阅读理解模型,其特征在于:

所述步骤S3具体包括:

S3.1证据推理:使用修订的步骤S2.1进行证据推理,所述修订的步骤S2.1的方法为,使用如下的公式(19)替换步骤S2.1.2中的公式(4),其余保持不变:

其中,为预测的前i-1个证据词序列;

S3.2答案推理:使用修订的步骤S2.2进行答案推理,所述修订的步骤S2.2的方法为,使用如下的公式(20)替换步骤S2.2.2中的公式(9),其余保持不变:

其中,为预测的前j-1个答案词序列。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202310473471.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top