[发明专利]医学知识图谱构建方法、装置以及终端有效
申请号: | 201910537781.0 | 申请日: | 2019-06-20 |
公开(公告)号: | CN110245242B | 公开(公告)日: | 2022-01-18 |
发明(设计)人: | 郭辉;纪登林;林义明;张璐;徐伟建;史亚冰;彭卫华;罗雨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06Q50/22 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;徐瑞红 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医学知识 图谱 构建 方法 装置 以及 终端 | ||
本发明实施例提出一种医学知识图谱构建方法、装置以及终端,方法包括:从多个订阅源分别获取医学数据;根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。极大的加快的数据融合收录过程,能稳定辅助临床诊断,减少了与医学专家的沟通过程。
技术领域
本发明涉及医学知识图谱技术领域,尤其涉及一种医学知识图谱构建方法、装置以及终端。
背景技术
知识图谱是一种基于图的数据结构,由实体(节点)和实体间的关系(边)组成,本质是一种语义网络。知识图谱把不同类型的数据连接到一张关系网络中,进而具备从“关系”角度去分析问题的能力。知识图谱按照覆盖面可分为通用知识图谱和领域知识图谱。其中,领域知识图谱强调知识的深度,具有较强的针对性和专业性,一般应用于领域内的数据挖掘或决策支持等。通过领域知识图谱,用户可以迅速有效的获取相关知识以及知识之间的逻辑关系,进而更全面的了解领域信息。在医疗领域内,各家医院、站点均有自己的相关数据,每个来源的命名方式及表述内容均存在差异,如何将数据有效的融合,形成知识图谱至关重要。
发明内容
本发明实施例提供一种医学知识图谱构建方法、装置以及终端,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种医学知识图谱构建方法,包括:
从多个订阅源分别获取医学数据;
根据各订阅源的医学数据中的各医学词条及其对应的医学描述,提取各医学词条对应的各医学特征关键词;
对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准的医学词条和对应的各标准的医学特征关键词;
根据各标准医学词条和对应的各标准医学特征关键词构建医学知识图谱。
在一种实施方式中,对各医学词条及其对应的多个医学特征关键词进行归一化和校验,得到各标准医学词条和对应的各标准医学特征关键词,包括:
将各医学词条及其对应的多个医学特征关键词转换为词向量;
将所述词向量输入至神经网络模型中,输出各统一的医学词条和对应的各统一的医学特征关键词;
对各医学词条及其对应的多个医学特征关键词,以及各统一的医学词条和对应的各统一的医学特征关键词进行校验,得到各标准的医学词条和对应的各标准的医学特征关键词。
在一种实施方式中,还包括:
将各医学词条及其对应的医学描述,各医学词条对应的各医学特征关键词,以及各标准的医学词条和对应的各标准的医学特征关键词收录至数据发布库中。
在一种实施方式中,还包括:
将重复的医学词条,及其对应的医学描述和医学特征关键词删除。
在一种实施方式中,还包括:
计算每个医学特征关键词出现的次数与所有医学特征关键词出现的次数的比值,得到第一概率;
计算每个医学特征关键词在与其对应的医学词条中出现的次数与医学词条出现的次数的比值,得到第二概率;
将所述第一概率与所述第二概率相乘,得到每个医学特征关键词在与其对应的医学词条中的第三概率。
第二方面,本发明实施例提供了一种医学知识图谱构建装置,包括:
医学数据获取模块,用于从多个订阅源分别获取医学数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910537781.0/2.html,转载请声明来源钻瓜专利网。