[发明专利]知识图谱构建方法、装置、系统、电子设备及存储介质在审
| 申请号: | 202210786427.3 | 申请日: | 2022-07-04 |
| 公开(公告)号: | CN115203432A | 公开(公告)日: | 2022-10-18 |
| 发明(设计)人: | 李犇;张杰;于皓 | 申请(专利权)人: | 北京明略昭辉科技有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/242;G06N20/00 |
| 代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 曾军 |
| 地址: | 100098 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 知识 图谱 构建 方法 装置 系统 电子设备 存储 介质 | ||
1.一种知识图谱构建方法,其特征在于,应用于知识图谱构建系统,所述知识图谱构建系统至少包括辅助标注模块、模型训练模块及知识图谱构建模块,所述知识图谱构建方法包括:
获取目标领域的目标文本;其中,所述目标文本为待在所述目标领域构建知识图谱的文本;
将所述目标文本划分为待标注文本和待处理文本;
通过所述辅助标注模块对所述待标注文本进行实体标注,得到已标注文本;
通过所述模型训练模块学习所述已标注文本,生成实体标注模型;
根据所述实体标注模型对所述待处理文本进行实体及实体关系的标注,得到已处理文本;
将所述已处理文本和所述已标注文本输入所述知识图谱构建模块,以输出通过所述知识图谱构建模块构建得到的所述目标文本在所述目标领域的知识图谱。
2.根据权利要求1所述的方法,其特征在于,所述通过所述辅助标注模块对所述待标注文本进行实体标注,得到已标注文本,包括:
抽取所述待标注文本中的各个实体;
将各个实体与预设实体及所述预设实体间的实体关系进行匹配;
若匹配到的相似度达到预设值,则依据预设实体以及所述预设实体间的实体关系,由所述辅助标注模块标注各个实体及各个实体间的实体关系,得到所述已标注文本。
3.根据权利要求1所述的方法,其特征在于,所述通过所述模型训练模块学习所述已标注文本,生成实体标注模型,包括:
确定初始模型,并设置所述初始模型对应的超参数;其中,所述初始模型为基于片段标注或基于序列标注的神经网络,所述超参数至少包括训练数据集和验证集的比例、训练所述初始模型的迭代次数及学习率;
由所述模型训练模块根据所述已标注文本和设置后的超参数对所述初始模型进行训练,生成所述实体标注模型,以使所述实体标注模型对进行实体及实体关系的抽取。
4.根据权利要求1或3所述的方法,其特征在于,所述知识图谱构建系统还包括模型服务部署模块,其中,在通过所述模型训练模块学习所述已标注文本,生成实体标注模型之后,所述方法还包括:
调用所述实体标注模型对所述已标注文本中的测试数据集进行预测,得到准确率值,并将所述准确率值作为所述实体标注模型的评估指标;
根据所述评估指标对所述实体标注模型进行效果评估;
当评估结果表明所述评估指标满足预设条件时,通过所述模型服务部署模块为所述实体标注模型进行自动化部署,以使所述实体标注模型具备模型服务的自动部署服务以及具备实体及实体关系的标注服务。
5.根据权利要求1所述的方法,其特征在于,所述将所述已处理文本和所述已标注文本输入所述知识图谱构建模块,以输出通过所述知识图谱构建模块构建得到的所述目标文本在所述目标领域的知识图谱,包括:
将所述已处理文本和所述已标注文本输入至所述知识图谱构建模块;
对所述已处理文本和所述已标注文本进行知识融合,得到融合后的多个目标实体以及各个目标实体间的实体关系;
以每个目标实体作为节点,利用有向边表示各个目标实体间的实体关系,构建所述目标文本在所述目标领域的知识图谱;
输出所述目标文本在所述目标领域的知识图谱。
6.根据权利要求1所述的方法,其特征在于,在将所述目标文本划分为待标注文本和待处理文本之前,所述方法还包括:
对所述目标文本进行预处理操作,得到预处理后的目标文本;其中,所述预处理操作至少包括以下之一:对所述目标文本中含有文本长度小于第一预设值的文本进行清除,对所述目标文本中特殊字符进行清除,对所述目标文本中含有文本长度大于第二预设值的文本进行文本切分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略昭辉科技有限公司,未经北京明略昭辉科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210786427.3/1.html,转载请声明来源钻瓜专利网。





