[发明专利]一种基于糖尿病知识图谱的问答系统构建方法在审
申请号: | 202211301634.1 | 申请日: | 2022-10-24 |
公开(公告)号: | CN115658863A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 郝天永;兰牧融;周盈盈 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36;G06F16/35;G06F40/295;G06F40/30;G06N3/0442 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510631 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 糖尿病 知识 图谱 问答 系统 构建 方法 | ||
本发明公开了一种基于糖尿病知识图谱的问答系统构建方法,方法包括:基于目标数据,预设数据格式,以及实体类别、关系类型和属性类型;根据数据格式,基于实体类别对目标数据进行实体识别;根据实体识别的结果,基于关系类型和属性类型进行知识抽取,得到目标三元组;将目标三元组存储到目标图数据库,完成目标知识图谱的构建;对输入问题进行预处理,确定目标实体和目标关系类型;根据目标实体和目标关系,对目标图数据库进行查询处理,得到目标推荐结果的答案。本发明能够有效提高目标数据中分布的实体识别的准确性,能够提高问答系统中答案的准确性,可广泛应用于知识图谱技术领域。
技术领域
本发明涉及知识图谱技术领域,尤其是一种基于糖尿病知识图谱的问答系统构建方法。
背景技术
目前对于糖尿病领域知识图谱的构建研究较少,构建图谱的数据大部分来源于网络爬虫或相关领域书籍,对处理上述非结构化数据的方法较多,而非结构化数据处理的研究还存在跨句子分布的关系抽取、长度较长的实体提取的困难。往往构建的知识图谱不能准确反应出各类实体及其关系。
此外,对于问题的查找咨询,人们通常依靠各种搜索引擎,然而现有的搜索引擎反馈的内容通常是一些包括相关内容的网页甚至广告,尤其对于专业领域的相关内容,并不能准确反馈搜索对应的要点,而问答系统作为一种新型信息检索技术,能够直接返回给用户精确的答案,从而省去了用户从大量相关网页中寻找所需信息的时间。
因此,如何构建实体及关系准确表示的知识图谱进而搭建检索精确的问题系统是一个亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种高效的,一种基于糖尿病知识图谱的问答系统构建方法。
一方面,本发明实施例提供了一种基于糖尿病知识图谱的问答系统构建方法,包括:
基于目标数据,预设数据格式,以及实体类别、关系类型和属性类型;
根据所述数据格式,基于所述实体类别对所述目标数据进行实体识别;
根据所述实体识别的结果,基于所述关系类型和所述属性类型进行知识抽取,得到目标三元组;
将所述目标三元组存储到目标图数据库,完成目标知识图谱的构建;
对输入问题进行预处理,确定目标实体和目标关系类型;
根据所述目标实体和所述目标关系类型,对所述目标图数据库进行查询处理,得到目标推荐结果的答案。
可选地,还包括:
基于所述实体识别,根据实体名称进行去重处理。
可选地,所述基于目标数据,预设数据格式,以及实体类别、关系类型和属性类型,包括:
基于糖尿病知识图谱中文数据集DiaKG,预设数组结构的数据格式,以及18类实体类别、16种关系类型和属性类型。
可选地,所述根据所述数据格式,基于所述实体类别对所述目标数据进行实体识别,包括:
根据所述数据格式,通过三位标注法对所述目标数据进行跨句标注;
基于所述跨句标注,通过BI-LSTM-CRF模型进行实体识别。
可选地,所述根据所述实体识别的结果,基于所述关系类型和所述属性类型进行知识抽取,得到目标三元组,包括:
根据所述实体识别的结果,基于所述关系类型,通过BERT模型进行面向结构化文本的关系抽取,得到关系三元组;
和,基于所述属性类型,通过BERT模型进行面向结构化文本的属性抽取,得到属性三元组;
其中,所述知识抽取包括关系抽取和属性抽取;所述目标三元组包括关系三元组和属性三元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211301634.1/2.html,转载请声明来源钻瓜专利网。