[发明专利]系统化医学领域知识图谱的构建方法及装置在审
申请号: | 202210414405.4 | 申请日: | 2022-04-20 |
公开(公告)号: | CN115033648A | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 李宇萱;李向阳 | 申请(专利权)人: | 天津健康医疗大数据有限公司;浪潮软件集团有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/31;G06F16/36;G06F40/242;G06K9/62;G16H10/60 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 孙园园 |
地址: | 301700 天津市武清区*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 系统化 医学 领域 知识 图谱 构建 方法 装置 | ||
1.一种系统化医学领域知识图谱的构建方法,其特征在于,该方法具体如下:
S1、设计知识图谱初始架构,创建主题数据表:通过主键和外键将每个表之间互相关联,形成整个知识图谱;
S2、收集医学数据,构建原词与归一词相关词典表,并定时进行字典更新;
S3、自顶向下构建知识图谱;
S4、自底向上构建知识图谱;
S5、多次执行步骤S3至步骤S4,并对每次获取的知识数据进行存储、更新和融合;
S6、完成知识图谱的构建。
2.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S1中的设计知识图谱初始架构,创建主题数据表包括标签层和数据层两部分,标签层表示该数据实体的类型;标签层包括标签定义表、标签关系表、数据层包括归一词管理表、术语标签映射表、原词与归一词映射表及术语关系表;
其中,标签定义表用于存储标签层中标签定义,即实体类型标签,每个实体类型标签均有唯一的标签ID索引;
标签关系表用于存储标签与标签之间的关系,以三元组形式进行存储;
归一词管理表用于存储疾病、药物及手术的单个实体字典,每个实体字典均有唯一的中文名称及ID;
术语标签映射表用于存储单个实体及其实体类型标签,当存在一个实体对应多个标签且标签存在子类与父类关系时,同时把子类标签实体对应到父类标签上;
原词与归一词映射表用于存储原词所对应归一词名称字典,一个归一词对应多个原词,通过定时爬取更新数据,实现基础字典的不断扩充;
术语关系表是以三元组+实体类型标签的形式,术语关系表用于存储处理好的知识数据。
3.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S3中的自顶向下构建知识图谱具体如下:
S301、定义知识图谱数据模式层,即标签层,根据知识领域定义标签层框架,确定标签实体的名称、定义及标签实体类型,并将数据存放于标签定义表中;
S302、定义好标签实体间的关系,以三元组形式将数据存放于标签关系表中;
S303、通过已定义标签确定医学知识领域范围,获取相应知识信息;
S304、对获取到的知识信息进行数据处理;
S305、将处理好的数据存储于知识库,进行知识的更新和融合。
4.根据权利要求1所述的系统化医学领域知识图谱的构建方法,其特征在于,步骤S4中的自底向上构建知识图谱具体如下:
S401、获取所需知识信息;其中,知识信息获取来源包括国家官网、企业官网或其他权威机构发布的医学知识信息或医学文献,百度百科、期刊论文、专利及词典获取到的知识信息以及通过专业技术总结得出的知识信息;
S402、对获取到的知识信息进行数据处理;
S403、将处理好的数据存储于知识库,进行知识的更新和融合;
S404、提取出处理好的数据中实体类型标签,并存放于标签定义表中;
S405、提取出处理好的数据中实体类型标签及实体与实体之间的关系,以三元组形式将数据存放于标签关系表中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津健康医疗大数据有限公司;浪潮软件集团有限公司,未经天津健康医疗大数据有限公司;浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210414405.4/1.html,转载请声明来源钻瓜专利网。