[发明专利]一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质在审
| 申请号: | 202110909825.5 | 申请日: | 2021-08-09 |
| 公开(公告)号: | CN113590844A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 赵撼宇;袁莎;冷佳泓;唐杰;曹岗 | 申请(专利权)人: | 北京智源人工智能研究院 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06K9/62 |
| 代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 问答 生成 方法 装置 电子设备 存储 介质 | ||
1.一种基于知识图谱的问答库生成方法,其特征在于,包括:
从知识图谱中获取实体关系组合;
对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;
利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;
基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。
2.根据权利要求1所述的方法,其特征在于,所述从知识图谱中获取实体关系组合,进一步包括:
基于启发式规则来处理知识图谱中的三元组,作为所述实体关系组合;
所述启发式规则包括:
匹配实体的一度关系的模板;
匹配实体的二度关系的模板;和/或
将两个实体进行联合且关系为一度的模板。
3.根据权利要求1所述的方法,其特征在于,所述预训练模型是按照下述方式预先训练得到的:
获取阅读理解语料库和百科语料库;
利用所述阅读理解语料库中的段落和答案生成问题得到第一训练数据集;
对所述百科语料库中标记有超链接的实体进行掩码预测,得到第二训练数据集;
利用所述第一训练数据集和第二训练数据集对特定模型进行预训练得到所述预训练模型。
4.根据权利要求1所述的方法,其特征在于,所述生成微调数据,进一步包括:
对于所抽取的掩码后的部分实体关系组合,通过人工提问的方式得到问题,然后将每个掩码后的实体关系组合和对其提问的问题作为一条问答数据,生成所述微调数据。
5.根据权利要求1所述的方法,其特征在于,所述利用所述微调数据对所述预训练模型进行微调,得到问题生成模型,进一步包括:
基于所生成的微调数据,利用掩码后的实体关系组合作为所述预训练模型的编码器端的输入,利用所述微调数据中的问题作为所述预训练模型的解码器端的输出,对预训练模型进行端对端的微调,得到从掩码后的实体关系组合生成问题的问题生成模型。
6.根据权利要求1所述的方法,其特征在于,所述基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集,进一步包括:
将所述掩码后的全量实体关系组合输入所述问题生成模型的编码器端,对于每个输入的掩码后的实体关系组合,由所述问题生成模型的解码器端输出对应的问题,以每个实体关系组合中被掩码的实体作为答案,将所述问题和答案进行关联,形成所述问答数据集。
7.一种基于知识图谱的问答方法,其特征在于,包括:
接收用户输入的问题;
根据所述问题在问答语料库中进行检索,得到问答对,所述问答语料库是根据权利要求1-6中任一所述的方法基于知识图谱生成的;
将所述问答对中的答案返回给所述用户。
8.一种基于知识图谱的问答库生成装置,其特征在于,包括:
获取模块,从知识图谱中获取实体关系组合;
处理模块,对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;
微调模块,利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;
生成模块,基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。
9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如权利要求1至7任一所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如权利要求1至7任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110909825.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节式切纸管机
- 下一篇:显示设备





