[发明专利]一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质在审
| 申请号: | 202110909825.5 | 申请日: | 2021-08-09 |
| 公开(公告)号: | CN113590844A | 公开(公告)日: | 2021-11-02 |
| 发明(设计)人: | 赵撼宇;袁莎;冷佳泓;唐杰;曹岗 | 申请(专利权)人: | 北京智源人工智能研究院 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/332;G06K9/62 |
| 代理公司: | 北京动力号知识产权代理有限公司 11775 | 代理人: | 梁艳 |
| 地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 知识 图谱 问答 生成 方法 装置 电子设备 存储 介质 | ||
本发明公开了一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质,该方法包括:从知识图谱中获取实体关系组合;对实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;利用微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;基于掩码后的全量实体关系组合和问题生成模型,生成问答数据集。本发明的方案降低了问答数据集建设成本,确保问答数据集的准确性和质量,通过数据库检索匹配即可实现KBQA任务。
技术领域
本发明涉及问答系统领域,尤其涉及一种基于知识图谱的问答库生成方法、装置、电子设备和存储介质。
背景技术
知识图谱是下一代问答系统等智能应用的基础设施,如果把问答系统看成一个大脑,那么知识图谱就是大脑中的知识库,它使得机器能够从实体和关系的角度去分析、思考问题。作为对话问答任务模型训练的基础,大规模高质量问答数据集的构建具有重要的意义。
现有问答数据集的构建方式多采用互联网数据的抓取整合或者是由人工根据知识图谱进行构建。但是传统方法存在不足之处:首先,采用互联网抓取数据的方式无法保证数据集的质量,增加了数据清洗的负担,且互联网数据有着数据隐私、数据确权和数据偏置等问题,存在着一定法律风险和通过数据清洗无法解决的数据质量问题;再者,采用基于知识图谱的人工构建方式建设成本高昂、建设周期长,因此数据集在规模上很难达到问答系统的要求。
发明内容
为了解决现有技术中存在的问题,本发明提供了如下技术方案。本发明第一方面提供了一种基于知识图谱的问答库生成方法,包括:
从知识图谱中获取实体关系组合;
对所述实体关系组合中的实体进行随机掩码,抽取掩码后的部分实体关系组合,生成微调数据;
利用所述微调数据对预先训练得到的预训练模型进行微调,得到问题生成模型;
基于掩码后的全量实体关系组合和所述问题生成模型,生成问答数据集。
优选地,所述从知识图谱中获取实体关系组合,进一步包括:
基于启发式规则来处理知识图谱中的三元组,作为所述实体关系组合;
所述启发式规则进一步包括:
匹配实体的一度关系的模板;
匹配实体的二度关系的模板;和/或
将两个实体进行联合且关系为一度的模板。
优选地,所述预训练模型是按照下述方式预先训练得到的:
获取阅读理解语料库和百科语料库;
利用所述阅读理解语料库中的段落和答案生成问题得到第一训练数据集;
对所述百科语料库中标记有超链接的实体进行掩码预测,得到第二训练数据集;
利用所述第一训练数据集和第二训练数据集对特定模型训练得到所述预训练模型。
优选地,所述生成微调数据,进一步包括:
对于所抽取的掩码后的部分实体关系组合,通过人工提问的方式得到问题,然后将每个掩码后的实体关系组合和对其提问的问题作为一条问答数据,生成所述微调数据。
优选地,所述利用所述微调数据对所述预训练模型进行微调,得到问题生成模型,进一步包括:
基于所生成的微调数据,利用掩码后的实体关系组合作为所述预训练模型的编码器端的输入,利用所述微调数据中的问题作为所述预训练模型的解码器端的输出,对预训练模型进行端对端的微调,得到从掩码后的实体关系组合生成问题的问题生成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智源人工智能研究院,未经北京智源人工智能研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110909825.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调节式切纸管机
- 下一篇:显示设备





