[发明专利]基于深度学习的知识图谱构建方法、系统、设备及介质有效

申请号：	202111058841.4	申请日：	2021-09-10
公开（公告）号：	CN113505244B	公开（公告）日：	2021-11-30
发明（设计）人：	何昆仑;李宗任;钟琴	申请（专利权）人：	中国人民解放军总医院
主分类号：	G06F16/36	分类号：	G06F16/36;G06K9/62;G06N3/02
代理公司：	北京志霖恒远知识产权代理事务所(普通合伙) 11435	代理人：	郭栋梁
地址：	100853***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习知识图谱构建方法系统设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种基于深度学习的知识图谱构建方法、系统、设备及介质，该方法包括：将未标注的医学文献数据输入关系抽取模型中，构建第一知识图谱，关系抽取模型是基于获取的已标注的医学文献数据构建的；将未标注的医学文献数据输入辅助标注模型中，确定未标注的医学文献数据中每个实体的分类结果，辅助标注模型是基于医学数据库构建的；采用半监督学习算法，根据每个实体的分类结果和第一知识图谱更新关系抽取模型，得到第二知识图谱。该方案能够基于融合了医学数据库的辅助标注模型对海量无标注医学文献数据进行标注，并通过半监督学习算法迭代更新关系抽取模型，提升了关系抽取模型的泛化能力，从而全面且快速地构建出高质量的知识图谱。

技术领域

本发明一般涉及自然语言处理技术领域，具体涉及一种基于深度学习的知识图谱构建方法、系统、设备及介质。

背景技术

随着人工智能技术的不断发展，医疗技术逐渐向智慧化转变，随之而来产生了很多线上平台，如医疗知识图谱，通过医疗知识图谱能够带来更加高效的服务。其中，知识图谱是一种大规模语义网络，以实体或概念作为节点，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

目前，传统的医疗知识图谱都是以半自动或者人工的方式构建，首先通过资深医生利用标注平台对大量无标注的医学文献进行手动标注，形成三元组数据，然后根据该三元组数据训练生成关系抽取模型，然后根据关系抽取模型和未标注的医学文献数据，整理得到知识图谱。然而，该方法需要大量资深医生进行标注数据，其标注工作量过大，耗费了大量人力和时间成本，且资深医生所提供的精标注医学文献非常有效，导致训练的关系抽取模型精度和泛化功能存在不足。

发明内容

鉴于现有技术中的上述缺陷或不足，期望提供一种基于深度学习的知识图谱构建方法、系统、设备及介质。

第一方面，本申请实施例提供了一种基于深度学习的知识图谱构建方法，该方法包括：

将未标注的医学文献数据输入所述关系抽取模型中，构建第一知识图谱，其中，所述关系抽取模型是基于获取的已标注的医学文献数据构建的；

将所述未标注的医学文献数据输入辅助标注模型中，确定所述未标注的医学文献数据中每个实体的分类结果，所述辅助标注模型是基于医学数据库构建的；

采用半监督学习算法，根据所述每个实体的分类结果和所述第一知识图谱更新所述关系抽取模型，得到第二知识图谱。

在其中一个实施例中，所述辅助标注模型包括命名实体识别模型和与所述命名实体识别模型相连接的Transformer模型，将所述未标注的医学文献数据输入辅助标注模型中，确定所述未标注的医学文献数据中每个实体的分类结果，包括：

将所述未标注的医学文献数据输入所述命名实体识别模型中，得到第一特征向量；

将所述第一特征向量输入所述Transformer模型中，得到第二特征向量；

将所述第二特征向量依次通过线性层和激活函数层进行处理，得到所述每个实体的分类结果。

在其中一个实施例中，所述命名实体识别模型包括实体边界识别模型和实体分类模型，将所述待标注的医学文献数据输入所述命名实体识别模型中，得到第一特征向量，包括：

将所述未标注的医学文献数据输入所述实体边界识别模型中，确定所述未标注的医学文献数据中的每个实体词；