[发明专利]一种基于T5神经网络的可解释阅读理解模型在审

申请号：	202310473471.3	申请日：	2023-04-27
公开（公告）号：	CN116432632A	公开（公告）日：	2023-07-14
发明（设计）人：	朱新华;关波旭;提平;彭琦	申请（专利权）人：	广西师范大学
主分类号：	G06F40/211	分类号：	G06F40/211;G06N3/0455;G06N3/08;G06N5/04
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	覃永峰
地址：	541004 广***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 t5 神经网络可解释阅读理解模型
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于T5神经网络的可解释阅读理解模型，其特征在于：将可解释阅读理解任务描述为一个四元组C，Q，A，E，其中C表示上下文，Q是基于上下文C提出的问题，A表示问题Q的答案，E表示答案A对应的证据，答案A和证据E均来自于上下文C中的连续的区域，并通过证据E对答案A进行解释；将基于T5神经网络的可解释阅读理解模型的结构定义为：

T5-InterMRC＝{编码器，证据解码器，答案解码器} (1)

其中，T5-InterMRC表示所提出的基于T5神经网络的可解释阅读理解模型，编码器和解码器都来源于T5神经网络，证据解码器用于生成证据，答案解码器用于生成答案，编码器用于对上下文和问题进行编码，证据解码器和答案解码器共享一个相同的编码器；

所述可解释阅读理解模型的处理模式为，首先通过上下文与问题生成解释答案的证据，然后再通过证据与问题生成答案；

所述T5-InterMRC模型按照以下步骤进行微调训练与推理：

S1.使用基于文本相似度的精确证据自动标注方法，对单一的阅读理解任务训练集中的样本进行证据自动标注，得到带有证据标签的可解释阅读理解任务训练集；所述单一的阅读理解任务训练集是指其样本只标注有答案标签；

S2.使用步骤S1标注的带有证据标签的可解释阅读理解训练集中的样本，对T5-InterMRC模型进行证据预测与答案预测的联合微调训练，得到微调成型的T5-InterMRC模型；

S3.使用步骤S2得到的微调成型的T5-InterMRC模型，对阅读理解语料的测试样本进行推理，同时得到测试样本的答案与证据；

所述T5神经网络是指Google公司Raffel等人提出的Text-to-Text TransferTransformer预训练神经网络生成模型；

所述步骤S1具体包括：

S1.1将上下文C划分为独立句子的集合S；

S1.2在S中筛选出包含答案的句子子集S′；

S1.3如果S中只有一个句子包含答案，即S′的长度为1，则将该包含答案的句子标注为证据标签，否则将答案A和问题Q拼接起来作为线索Clue，并分别计算线索Clue与S′中每个句子的相似度得分，最后将相似度得分最高的句子标注为证据标签；

S1.4对单一的阅读理解任务训练集中的每个样本重复步骤S1到步骤S3，最终得到包含证据标签的可解释阅读理解任务的训练集；

所述步骤S2具体包括：

S2.1证据预测，具体包括以下子步骤：

S2.1.1将训练样本的问题Q和上下文C连接起来，形成预测证据的输入文本T＝{q₁，…，q_n，c₁，…，c_m}，其中{q₁，…，q_n}和{c₁，…，c_m}分别表示问题Q和上下文C中的词，n表示问题Q中词的个数，m表示上下文C中词的个数；然后将T输入到T5-InterMRC的词嵌入层，得到T的嵌入表示X，以及将X输入到T5-InterMRC的编码器中，获得T的隐藏表示H，计算过程如下：

X＝Embed(T) (2)

H＝Encoder(X)＝{h₁，…，h_n+m}∈R^(n+m)×d (3)

其中，Encoder(·)表示T5-InterMRC的编码器，h_i为T5-InterMRC编码器中的隐藏状态，d为T5神经网络中隐藏状态的维度；

S2.1.2将T的隐藏表示H输入到证据解码器EV_Decoder(·)中，获得预测证据第i个位置的分布向量

其中，V表示T5神经网络用到的词表，|V|表示词表的大小，为证据标签中的前i-1个证据词序列；

S2.1.3通过归一化指数函数Softmax获得预测证据的第i个位置的概率分布：

其中，最终通过下面公式获得预测证据的第i个词

其中，表示预测证据的第i个位置为词的概率，函数表示在V中求使得为最大值的词

S2.1.4重复步骤S2.1.2与步骤S2.1.3，直到预测的证据词总数超过最大输出长度200，或者出现预测的证据词为终止符’\s’时，完成证据预测过程，获得预测证据k为预测证据的长度；

S2.2答案预测，具体包括以下子步骤：

S2.2.1将问题Q与获得的预测证据拼接起来，形成预测答案的输入文本然后将T′输入到T5-InterMRC的词嵌入层，得到T′的嵌入表示X′，以及将X′输入到T5-InterMRC的编码器中，获得T′的隐藏表示H′：

X′＝Embed(T′) (7)

H′＝Encoder(T′)∈R^(n+k)×d (8)

S2.2.2将隐藏表示H′输入到答案解码器QA_Decoder(·)中，获得预测答案的第j个位置的分布向量

其中，为答案标签中的前j-1个答案词序列；

然后，通过归一化指数函数Softmax获得预测答案的第j个位置的概率分布：

其中，最终通过如下公式获得预测答案的第j个词

其中，表示预测答案的第j个位置为词的概率，函数表示在V中求使得为最大值的词

S2.2.3重复步骤S2.2.2，直到预测的答案词总数超过最大输出长度200，或者出现预测的答案词为终止符’\s’时，完成答案预测过程，获得预测答案L为预测答案的长度；

S2.3计算损失，具体包括以下子步骤：

S2.3.1采用如下公式进行计算预测证据过程中产生的证据损失

其中，θ表示T5-InterMRC模型的所有参数，表示标准的交叉熵损失，和分别表示预测证据的开始位置和结束位置的损失，计算如下：

其中，E表示训练样本的证据标签，|E|表示E的长度，e_i表示证据标签E中的第i个位置的标签词，e₁表示证据标签E中的开始位置的标签词，e_|E|表示证据标签E中的结束位置的标签词，表示预测证据中第i个位置为标签词ei的预测概率，为预测证据中第i个位置的概率分布，采用公式(4)计算；

S2.3.2采用如下公式进行计算预测答案过程中产生的答案损失

其中，A表示训练样本的答案标签，|A|表示A的长度，a_j表示答案标签A中的第j个位置的标签词，表示预测答案中第j个位置为标签词a_j的预测概率，为预测答案中第j个位置标的概率分布，采用公式(8)计算；

S2.3.3通过下面联合训练公式计算微调训练T5-InterMRC模型最终的损失

其中，λ为证据损失过滤器，计算公式为：

其中，δ_l、δ_r分别表示λ的左阈值和右阈值，且δ_l＜δ_r，δ_l、δ_r为可学习的参数；

所述证据损失过滤器是指过滤掉不准确证据对答案选择的影响，即答案解码器的参数只有在证据损失小于右阈值δ_r时才会被更新。

2.根据权利要求1所述的基于T5神经网络的可解释阅读理解模型，其特征在于：

所述步骤S3具体包括：

S3.1证据推理：使用修订的步骤S2.1进行证据推理，所述修订的步骤S2.1的方法为，使用如下的公式(19)替换步骤S2.1.2中的公式(4)，其余保持不变：

其中，为预测的前i-1个证据词序列；

S3.2答案推理：使用修订的步骤S2.2进行答案推理，所述修订的步骤S2.2的方法为，使用如下的公式(20)替换步骤S2.2.2中的公式(9)，其余保持不变：

其中，为预测的前j-1个答案词序列。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西师范大学，未经广西师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310473471.3/1.html，转载请声明来源钻瓜专利网。

上一篇：机器人示教装置、方法和机器人系统
下一篇：基于性能监控单元的处理器侧信道攻击的挖掘方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于T5神经网络的可解释阅读理解模型在审

专利文献下载