[发明专利]一种基于多任务联合训练的问题生成方法有效

专利信息
申请号: 202110448211.1 申请日: 2021-04-25
公开(公告)号: CN113268561B 公开(公告)日: 2021-12-14
发明(设计)人: 毛震东;张勇东;于尊瑞 申请(专利权)人: 中国科学技术大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/36;G06F40/30;G06N3/04
代理公司: 北京凯特来知识产权代理有限公司 11260 代理人: 郑立明;韩珂
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 任务 联合 训练 问题 生成 方法
【权利要求书】:

1.一种基于多任务联合训练的问题生成方法,其特征在于,包括:

训练阶段:采用多任务联合的方式对深度卷积网络模型进行训练,第一轮使用答案词填空任务进行训练,第二轮使用相关度预测任务和问题生成任务进行联合训练;两轮训练交替进行直至达到设定的停止轮数超参数;其中,所述答案词填空任务是将输入文本段落的答案文本删除,并将删除的答案文本作为真实标签,训练深度卷积网络模型根据文本段落自动生成答案位置的单词;相关度预测任务是对输入文本段落,使用文本段落中每个单词与答案词在依存关系上的距离来衡量相关度,并通过训练深度卷积模型自动预测文本段落中每个单词与答案词的相关度;问题生成任务是输入文本段落与文本段落中的答案文本,将问题文本作为真实标签,训练深度卷积模型生成相应的问题文本;

测试阶段:将文本段落与答案文本以及给定的问题文本长度输入至训练好的深度卷积网络模型,输出长度不超过给定的问题文本长度的问题文本。

2.根据权利要求1所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述答案词填空任务中,将文本段落的答案删除,使用掩码标志符号[MASK]代替后作为输入数据,以删除的答案文本作为真实标签训练深度卷积网络模型生成掩码标志符号[MASK]处的单词;

答案词填空任务看做是一个多分类任务,每个[MASK]处的单词的类别数目是词库表中的词语总数,损失函数采用负对数似然函数,表示为:

其中,Input1表示输入的不包含答案的文本段落,θ表示模型参数,Ai表示段落答案中的第i个词的生成结果,A′i表示答案文本中的第i个词的真实标签,LA表示答案中词的数量,LM表示答案词填空任务的损失函数,PM表示答案词填空的概率分布。

3.根据权利要求1所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述相关度预测任务中,首先对文本段落进行依存句法分析:对文本段落中的每个句子标记一个根节点词语,并以根节点为起点构建单向树,单向树中每个节点表示一个词,两个节点之间的连接表示两个词之间的依存关系;对于答案所在的句子,以答案中的词为中心,计算每个词在单向树上与答案词之间边的数量,将边的数量作为词与答案之间的相关度;如果答案中有多个词,则取距离最小的结果作为词与答案之间的相关度;对于不包含答案的句子,将句子中所有词与答案之间的相关度设置为默认最大值;

相关度预测任务是一个多分类任务,相关度S=0,1,2,…,N是N+1类,输入的文本段落中的每个词的相关度必定属于其中一类,损失函数采用负对数似然函数,表示为:

其中,Input2表示相关度预测任务和问题生成任务联合训练时使用的数据,包括:问题文本与包含答案的文本段落,在相关度测试任务时,仅使用其中包含答案的文本段落;θ表示模型参数,Sj表示文本段落中第j个词与答案之间的相关度预测结果,S′j表示文本段落中第j个词与答案之间的相关度真实标签,LT表示输入的文本段落中词的数量,LS表示相关度预测任务的损失函数,PS表示相关度预测的概率分布。

4.根据权利要求1所述的一种基于多任务联合训练的问题生成方法,其特征在于,所述问题生成任务中采用的损失函数是问题中各词的生成概率分布与真实数据的负对数似然的均值,表示为:

其中,Input2表示相关度预测任务和问题生成任务联合训练时使用的数据,包括:问题文本与包含答案的文本段落;问题生成任务中问题文本与包含答案的文本段落都需要使用;θ表示模型参数,Qk表示问题中第k个的词的生成结果,Q′k表示问题中第k个的词的真实标签,LQ表示问题中词的数量,LQG表示问题生成任务的损失函数,PQG表示问题生成时问题中各词的生成概率分布。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110448211.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top