[发明专利]基于多任务联合训练的机器阅读理解方法及计算机存储介质有效
申请号: | 201910514438.4 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110309305B | 公开(公告)日: | 2021-05-11 |
发明(设计)人: | 徐建;吴蔚;王鑫鹏;徐琳;李晓冬;王羽;王冬冬 | 申请(专利权)人: | 中国电子科技集团公司第二十八研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 常虹 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于多任务联合训练的机器阅读理解方法和计算机存储介质,其中方法包括模型构建与训练阶段、测试阶段;所述模型构建与训练阶段包括:1、构建训练集;2、建立机器阅读理解模型,包括编码层、注意力匹配层、解码层;3、将训练集按样本数分为W个子样本集,分别用W个子样本集对机器阅读理解模型进行训练,得到W个机器阅读理解模型;所述测试阶段包括:将待测试的文章进行截断处理,处理后的文章与问题输入训练好的W个机器阅读理解模型中,得到W个预测的答案起始位置、终止位置和对应的分布概率,计算均值作为最终答案的起始位置、终止位置和对应的分布概率。该方法能够解决现有机器阅读理解方法对中文文本的准确率较低等问题。 | ||
搜索关键词: | 基于 任务 联合 训练 机器 阅读 理解 方法 计算机 存储 介质 | ||
【主权项】:
1.基于多任务联合训练的机器阅读理解方法,其特征在于,包括模型构建与训练阶段、测试阶段;所述模型构建与训练阶段包括如下步骤:(1)构建训练集,包括如下步骤:(1.1)采集训练语料,所述训练语料包括文章、基于文章的问题、问题的答案;(1.2)对训练语料进行预处理,所述预处理包括:将繁体字转换为简体字,全角数字和全角字母转为半角数字和半角字母,去除答案首位的标点符号,去除训练语料中问题为空或文章为空的语料,去除问题和答案相同的语料;(1.3)将文章标题与正文采用句号拼接起来,判断长度是否超过预设的长度阈值;如果没有超过,将拼接结果作为文章;如果超过预设的长度阈值,对文章进行截断处理,将截断后的内容作为文章;所述截断处理的步骤包括:对文章标题与正文拼接后的内容进行断句,得到多条短句;计算每个短句与问题之间的BLEU‑4分数,计算每个短句的得分,第n个短句的得分为
其中sbleu(n)为第n个短句与问题之间的BLEU‑4分数,当n<0时sbleu(n)=0;αi为加权系数,α±3≤α±2≤α±1≤α0;对短句依据得分降序排序,选取排序后的前N个短句,使得文章标题、开头句、结尾句和选取的M个短句长度之和最大且不超过预设的长度阈值;文章标题、开头句、结尾句和选取的M个短句拼接在一起作为截断后的内容;(2)建立机器阅读理解模型;所述机器阅读理解模型包括编码层、注意力匹配层、解码层;所述编码层将输入文本转化为语义特征;所述注意力匹配层处理编码层输出的语义特征,得到整合了文章全局信息的文档表示,并预测问题的类型和答案;所述解码层得到答案的起始位置、终止位置和对应的分布概率;所述机器阅读理解模型的联合损失函数为:L=Lboundary+r*Lquestiontype其中Lboundary为答案边界的交叉熵,Lquestiontype为问题类型的交叉熵,r为问题类型预测任务权重,
N为训练样本的数量,K为问题类型总数,yik为第i个样本属于第k类问题的标签,pik为第i个样本属于第k类问题的概率;(3)将训练集按样本数分为W个子样本集,分别用W个子样本集对步骤(2)中建立的机器阅读理解模型进行训练,得到W个机器阅读理解模型;所述测试阶段包括如下步骤:将待测试的文章按照步骤1.3处理,处理后的文章与问题输入训练好的W个机器阅读理解模型中,得到W个预测的答案起始位置、终止位置和对应的分布概率,计算均值作为最终答案的起始位置、终止位置和对应的分布概率。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910514438.4/,转载请声明来源钻瓜专利网。