[发明专利]一种医学知识表示的生成方法和装置有效
申请号: | 202111437609.1 | 申请日: | 2021-11-30 |
公开(公告)号: | CN113836321B | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 王欣梅;李瑞瑞;李爽;赵伟 | 申请(专利权)人: | 北京富通东方科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06K9/62;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100086 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医学知识 表示 生成 方法 装置 | ||
本公开涉及一种医学知识表示的生成方法和装置,其中,方法包括:基于医学知识图谱数据集获取单步路径三元组集和头实体和尾实体的描述文本数据,基于实体的描述文本数据和单步路径三元组集,获取实体的初始描述信息存储在单步路径三元组集,获取每个单步路径三元组对应的多跳路径三元组集合,所有单步路径三元组和对应的多跳路径三元组进行合并为正样本集合,对正样本集合处理得到负样本集合,将正样本集合和负样本集合输入神经网络进行训练获取医学知识表示学习模型,以获取待处理实体和待处理尾实体输入医学知识表示学习模型生成医学知识表示。由此,在融合实体描述文本信息的基础上添加多步关系路径信息,增加知识表示的语义信息。
技术领域
本公开涉及医学知识表示技术领域,尤其涉及一种医学知识表示的生成方法和装置。
背景技术
通常,针对稳定性冠心病、心力衰竭、高血压等心血管慢病的诊断,涉及医学知识面广泛、推理链比较程长,需要融合患者高维的基线信息,如性别、年龄、病史、职业、生活习惯等,以及体格检查、影像学检查、实验室检验等诊断指标结果知识。此外,临床疾病推理环节通常也是错综复杂,往往需要多角度多步长的反复验证和疾病鉴别。
可以理解的是,知识表示学习是通过机器学习将研究对象的语义信息表示为稠密低维实值向量,在许多下游自然语言处理任务中起着不可或缺的作用,典型应用主要包括知识相似度计算、知识图谱补全、知识语义搜索等。
目前的医学知识表示通常是基于单步长或者单实体节点的向量表示,无法考虑足够的医学语义信息,并且遇见未在词表中的医学实体名词则无法进行向量嵌入表示。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种医学知识表示的生成方法和装置。
本公开提供了医学知识表示的生成方法,包括:
获取医学知识图谱数据集;
基于所述医学知识图谱数据集,获取单步路径三元组集和实体的描述文本数据;其中,所述实体包括头实体和尾实体;
基于所述实体的描述文本数据和所述单步路径三元组集,获取实体的初始描述信息存储在所述单步路径三元组集;
获取所述单步路径三元组集中每个单步路径三元组对应的多跳路径三元组集合;
所有所述单步路径三元组和对应的多跳路径三元组进行合并为正样本集合,并对所述正样本集合进行处理得到负样本集合;
通过预设损失函数将所述正样本集合和所述负样本集合输入神经网络进行训练,获取医学知识表示学习模型,以获取待处理实体和待处理尾实体输入所述医学知识表示学习模型,生成医学知识表示。
本公开提供了医学知识表示的生成装置,包括:
获取图谱模块,用于获取医学知识图谱数据集;
第一获取模块,用于基于所述医学知识图谱数据集,获取单步路径三元组集;
第二获取模块,用于基于所述医学知识图谱数据集,获取实体的描述文本数据;其中,所述实体包括头实体和尾实体;
第三获取模块,用于基于所述实体的描述文本数据和所述单步路径三元组集,获取实体的初始描述信息存储在所述单步路径三元组集;
第四获取模块,用于获取所述单步路径三元组集中每个单步路径三元组对应的多跳路径三元组集合;
合并处理模块,用于所有所述单步路径三元组和对应的多跳路径三元组进行合并为正样本集合,并对所述正样本集合进行处理得到负样本集合;
生成处理模块,用于通过预设损失函数将所述正样本集合和所述负样本集合输入神经网络进行训练,获取医学知识表示学习模型,以获取待处理实体和待处理尾实体输入所述医学知识表示学习模型,生成医学知识表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京富通东方科技有限公司,未经北京富通东方科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111437609.1/2.html,转载请声明来源钻瓜专利网。