[发明专利]一种基于T5神经网络的可解释阅读理解模型在审
申请号: | 202310473471.3 | 申请日: | 2023-04-27 |
公开(公告)号: | CN116432632A | 公开(公告)日: | 2023-07-14 |
发明(设计)人: | 朱新华;关波旭;提平;彭琦 | 申请(专利权)人: | 广西师范大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06N3/0455;G06N3/08;G06N5/04 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 覃永峰 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 t5 神经网络 可解释 阅读 理解 模型 | ||
1.一种基于T5神经网络的可解释阅读理解模型,其特征在于:将可解释阅读理解任务描述为一个四元组C,Q,A,E,其中C表示上下文,Q是基于上下文C提出的问题,A表示问题Q的答案,E表示答案A对应的证据,答案A和证据E均来自于上下文C中的连续的区域,并通过证据E对答案A进行解释;将基于T5神经网络的可解释阅读理解模型的结构定义为:
T5-InterMRC={编码器,证据解码器,答案解码器} (1)
其中,T5-InterMRC表示所提出的基于T5神经网络的可解释阅读理解模型,编码器和解码器都来源于T5神经网络,证据解码器用于生成证据,答案解码器用于生成答案,编码器用于对上下文和问题进行编码,证据解码器和答案解码器共享一个相同的编码器;
所述可解释阅读理解模型的处理模式为,首先通过上下文与问题生成解释答案的证据,然后再通过证据与问题生成答案;
所述T5-InterMRC模型按照以下步骤进行微调训练与推理:
S1.使用基于文本相似度的精确证据自动标注方法,对单一的阅读理解任务训练集中的样本进行证据自动标注,得到带有证据标签的可解释阅读理解任务训练集;所述单一的阅读理解任务训练集是指其样本只标注有答案标签;
S2.使用步骤S1标注的带有证据标签的可解释阅读理解训练集中的样本,对T5-InterMRC模型进行证据预测与答案预测的联合微调训练,得到微调成型的T5-InterMRC模型;
S3.使用步骤S2得到的微调成型的T5-InterMRC模型,对阅读理解语料的测试样本进行推理,同时得到测试样本的答案与证据;
所述T5神经网络是指Google公司Raffel等人提出的Text-to-Text TransferTransformer预训练神经网络生成模型;
所述步骤S1具体包括:
S1.1将上下文C划分为独立句子的集合S;
S1.2在S中筛选出包含答案的句子子集S′;
S1.3如果S中只有一个句子包含答案,即S′的长度为1,则将该包含答案的句子标注为证据标签,否则将答案A和问题Q拼接起来作为线索Clue,并分别计算线索Clue与S′中每个句子的相似度得分,最后将相似度得分最高的句子标注为证据标签;
S1.4对单一的阅读理解任务训练集中的每个样本重复步骤S1到步骤S3,最终得到包含证据标签的可解释阅读理解任务的训练集;
所述步骤S2具体包括:
S2.1证据预测,具体包括以下子步骤:
S2.1.1将训练样本的问题Q和上下文C连接起来,形成预测证据的输入文本T={q1,…,qn,c1,…,cm},其中{q1,…,qn}和{c1,…,cm}分别表示问题Q和上下文C中的词,n表示问题Q中词的个数,m表示上下文C中词的个数;然后将T输入到T5-InterMRC的词嵌入层,得到T的嵌入表示X,以及将X输入到T5-InterMRC的编码器中,获得T的隐藏表示H,计算过程如下:
X=Embed(T) (2)
H=Encoder(X)={h1,…,hn+m}∈R(n+m)×d (3)
其中,Encoder(·)表示T5-InterMRC的编码器,hi为T5-InterMRC编码器中的隐藏状态,d为T5神经网络中隐藏状态的维度;
S2.1.2将T的隐藏表示H输入到证据解码器EV_Decoder(·)中,获得预测证据第i个位置的分布向量
其中,V表示T5神经网络用到的词表,|V|表示词表的大小,为证据标签中的前i-1个证据词序列;
S2.1.3通过归一化指数函数Softmax获得预测证据的第i个位置的概率分布:
其中,最终通过下面公式获得预测证据的第i个词
其中,表示预测证据的第i个位置为词的概率,函数表示在V中求使得为最大值的词
S2.1.4重复步骤S2.1.2与步骤S2.1.3,直到预测的证据词总数超过最大输出长度200,或者出现预测的证据词为终止符’\s’时,完成证据预测过程,获得预测证据k为预测证据的长度;
S2.2答案预测,具体包括以下子步骤:
S2.2.1将问题Q与获得的预测证据拼接起来,形成预测答案的输入文本然后将T′输入到T5-InterMRC的词嵌入层,得到T′的嵌入表示X′,以及将X′输入到T5-InterMRC的编码器中,获得T′的隐藏表示H′:
X′=Embed(T′) (7)
H′=Encoder(T′)∈R(n+k)×d (8)
S2.2.2将隐藏表示H′输入到答案解码器QA_Decoder(·)中,获得预测答案的第j个位置的分布向量
其中,为答案标签中的前j-1个答案词序列;
然后,通过归一化指数函数Softmax获得预测答案的第j个位置的概率分布:
其中,最终通过如下公式获得预测答案的第j个词
其中,表示预测答案的第j个位置为词的概率,函数表示在V中求使得为最大值的词
S2.2.3重复步骤S2.2.2,直到预测的答案词总数超过最大输出长度200,或者出现预测的答案词为终止符’\s’时,完成答案预测过程,获得预测答案L为预测答案的长度;
S2.3计算损失,具体包括以下子步骤:
S2.3.1采用如下公式进行计算预测证据过程中产生的证据损失
其中,θ表示T5-InterMRC模型的所有参数,表示标准的交叉熵损失,和分别表示预测证据的开始位置和结束位置的损失,计算如下:
其中,E表示训练样本的证据标签,|E|表示E的长度,ei表示证据标签E中的第i个位置的标签词,e1表示证据标签E中的开始位置的标签词,e|E|表示证据标签E中的结束位置的标签词,表示预测证据中第i个位置为标签词ei的预测概率,为预测证据中第i个位置的概率分布,采用公式(4)计算;
S2.3.2采用如下公式进行计算预测答案过程中产生的答案损失
其中,A表示训练样本的答案标签,|A|表示A的长度,aj表示答案标签A中的第j个位置的标签词,表示预测答案中第j个位置为标签词aj的预测概率,为预测答案中第j个位置标的概率分布,采用公式(8)计算;
S2.3.3通过下面联合训练公式计算微调训练T5-InterMRC模型最终的损失
其中,λ为证据损失过滤器,计算公式为:
其中,δl、δr分别表示λ的左阈值和右阈值,且δl<δr,δl、δr为可学习的参数;
所述证据损失过滤器是指过滤掉不准确证据对答案选择的影响,即答案解码器的参数只有在证据损失小于右阈值δr时才会被更新。
2.根据权利要求1所述的基于T5神经网络的可解释阅读理解模型,其特征在于:
所述步骤S3具体包括:
S3.1证据推理:使用修订的步骤S2.1进行证据推理,所述修订的步骤S2.1的方法为,使用如下的公式(19)替换步骤S2.1.2中的公式(4),其余保持不变:
其中,为预测的前i-1个证据词序列;
S3.2答案推理:使用修订的步骤S2.2进行答案推理,所述修订的步骤S2.2的方法为,使用如下的公式(20)替换步骤S2.2.2中的公式(9),其余保持不变:
其中,为预测的前j-1个答案词序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西师范大学,未经广西师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310473471.3/1.html,转载请声明来源钻瓜专利网。