[发明专利]问答阅读理解模型获取方法、装置、电子设备及存储介质有效
| 申请号: | 201911189653.8 | 申请日: | 2019-11-28 |
| 公开(公告)号: | CN111079938B | 公开(公告)日: | 2020-11-03 |
| 发明(设计)人: | 李弘宇;刘璟 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
| 主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F16/30 |
| 代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 田宏宾 |
| 地址: | 100085 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 问答 阅读 理解 模型 获取 方法 装置 电子设备 存储 介质 | ||
本申请公开了问答阅读理解模型获取方法、装置、电子设备及存储介质,涉及深度学习领域,其中方法可包括:针对N个不同结构的模型,N为大于一的正整数,分别利用无监督训练数据进行预训练,得到N个预训练模型,不同模型分别对应于不同的预训练任务;分别以问答阅读理解任务为主任务,以预定的其它自然语言处理任务为辅助任务,利用有监督训练数据对各预训练模型进行微调,得到N个微调模型;根据N个微调模型确定出最终所需的问答阅读理解模型。应用本申请所述方案,可提升模型的泛化能力等。
技术领域
本申请涉及计算机应用技术,特别涉及深度学习领域的问答阅读理解模型获取方法、装置、电子设备及存储介质。
背景技术
问答阅读理解技术是指给定一个或多个段落(P)以及一个问题(Q),利用机器学习的方法让模型预测出答案(A)。
当前的问答阅读理解模型多基于预训练-微调的方式获取,即首先选定一种模型结构,然后在大量来源单一的无监督训练数据上进行预训练,之后使用有监督训练数据,在单一的问答阅读理解任务上进行微调,从而得到最终所需的问答阅读理解模型。
但上述方式的模型结构及训练任务单一,导致模型难以学到一些通用的特征,从而导致模型的泛化能力较弱等。
发明内容
有鉴于此,本申请提供了问答阅读理解模型获取方法、装置、电子设备及存储介质。
一种问答阅读理解模型获取方法,包括:
针对N个不同结构的模型,N为大于一的正整数,分别利用无监督训练数据进行预训练,得到N个预训练模型,不同模型分别对应于不同的预训练任务;
分别以问答阅读理解任务为主任务,以预定的其它自然语言处理任务为辅助任务,利用有监督训练数据对各预训练模型进行微调,得到N个微调模型;
根据所述N个微调模型确定出所述问答阅读理解模型。
根据本申请一优选实施例,所述分别利用无监督训练数据进行预训练包括:
针对任一模型,分别利用至少来自两个不同预定领域的无监督训练数据进行预训练。
根据本申请一优选实施例,该方法进一步包括:
针对任一预训练模型,分别按照所述预训练模型对应的训练任务,利用来自至少一个预定领域的无监督训练数据,对所述预训练模型进行深度预训练,得到强化后的预训练模型;
其中,所述深度预训练时所用无监督训练数据与所述预训练时所用无监督训练数据来自不同领域。
根据本申请一优选实施例,所述进行微调包括:
针对任一预训练模型,在微调的每一步中,分别从所述主任务以及所述辅助任务中选出一个任务进行训练,并更新模型参数;
其中,所述主任务被选出的次数多于任一辅助任务被选出的次数。
根据本申请一优选实施例,所述根据所述N个微调模型确定出所述问答阅读理解模型包括:
利用知识蒸馏技术,将所述N个微调模型压缩为一个单模型,将所述单模型作为所述问答阅读理解模型。
一种问答阅读理解模型获取装置,包括:第一预训练单元、微调单元以及融合单元;
所述第一预训练单元,用于针对N个不同结构的模型,N为大于一的正整数,分别利用无监督训练数据进行预训练,得到N个预训练模型,不同模型分别对应于不同的预训练任务;
所述微调单元,用于分别以问答阅读理解任务为主任务,以预定的其它自然语言处理任务为辅助任务,利用有监督训练数据对各预训练模型进行微调,得到N个微调模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911189653.8/2.html,转载请声明来源钻瓜专利网。





