[发明专利]一种基于深度学习的中文医学知识图谱构建方法有效
申请号: | 201611017724.2 | 申请日: | 2016-11-14 |
公开(公告)号: | CN106776711B | 公开(公告)日: | 2020-04-07 |
发明(设计)人: | 郑小林;王维维;扈中凯;黄嘉伟 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F40/30;G06F16/36;G06F16/2455 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 周世骏 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 中文 医学知识 图谱 构建 方法 | ||
本发明涉及知识图谱技术,旨在提供一种基于深度学习的中文医学知识图谱构建方法。包括:从数据源获取医疗领域相关数据;使用分词工具对非结构化数据进行分词,使用RNN完成序列标注任务以识别医疗相关的实体,实现知识单元的抽取;对实体进行特征向量的构建,使用RNN进行序列标注并完成知识单元间关系的识别;进行实体对齐后,利用提取的实体以及实体之间的关系构建知识图谱。本发明巧妙地将循环神经网络用于知识单元抽取和知识单元间关系识别,能很好地完成对非结构化数据的处理。本发明提出适用于医学领域的特征来进行网络的训练任务,相对于通用特征而言更能够代表医学实体,使得抽取出的知识单元和知识单元间的关系更加准确、全面。
技术领域
本发明涉及知识图谱技术,特别涉及一种基于深度学习的中文医学知识图谱构建方法。
背景技术
随着越来越多的语义万维网数据在互联网上开放,国内外各个互联网搜索引擎公司开始以此为基础构建知识图谱从而提升服务质量,如Google知识图谱(GoogleKnowledge Graph),百度“知心”等。知识图谱(Knowledge Graph)的本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体或概念之间的各种语义关系。它是一种知识管理的服务模式,能够将各个领域琐碎、零散的知识相互连接,从而组成一个以“语义网络”为骨架构建起来的巨型、网络化的知识系统。现在,人们已经开始将知识图谱应用在综合性知识检索以及问答、决策支持等智能系统中。
然而,虽然搜索引擎利用通用的大型知识图谱能够为用户提供高质量的检索、推荐等服务,但是当用户需要进行某一特定领域(如医学领域)的检索时,搜索引擎提供的结果常常看似相关度高,但实际上不能满足用户需求。因此垂直搜索引擎应运而生。就医学领域而言,当用户需要查询某些症状对应的可能疾病、疾病对应的症状和治疗方法、药物的治疗功能以及特性等信息时,医学垂直搜索引擎利用针对于医学领域构建的知识图谱在这些方面返回的结果往往比通用搜索更加专注、具体和深入。
目前国内外还没有成熟的中文医学知识图谱构建案例,而现有的知识图谱对中文的支持也不够。因此,本发明要解决的技术问题是如何从全网的各种结构化、半结构化以及非结构化数据中通过深度学习提取出医学领域的实体、实体之间的关系,并且通过这些提取出的知识构建出医学领域的知识图谱,这样可以提高垂直于医学领域的搜索引擎的检索的精确性与实用性。
知识图谱旨在描述真实世界中存在的各种实体、实体的属性以及实体之间的关系,构建知识图谱的主要工作流程包括:获取数据、构建知识单元、构建单元关系、知识图谱的结构化展示。然而通用的知识图谱覆盖的信息规模太大,因此在使用过程中会露出一些问题,比如缺少细节,时效性差,关系过于死板等等,于是出现了一些更加智能化、个性化和专业化的垂直知识图谱。
垂直知识图谱针对特定领域,专注于自己的特长,保证了对该领域信息的完全收录与及时更新。与通用的知识图谱不同,垂直知识图谱的实体以及实体的属性只限定在该领域,而实体间关系除了来自通用的关系,还会针对特定领域添加更加详细和全面的与该领域相关的关系。因为本发明是面向医疗领域的,因此牵涉的关系和实体不像通用知识图谱那么多,但都是与领域密切相关的,在关系方面更加细致和深入。
在知识图谱的构建过程中,最为关键的两个步骤就是知识单元抽取以及知识单元的关系抽取,也就是实体识别以及实体之间的关系抽取。以垂直于医学领域的知识图谱为例,实体识别就是在非结构化数据中识别出症状、药品以及疾病等医学相关的名词,而实体关系抽取则是抽取出这些识别出的实体之间的关系,包括疾病对应的症状、疾病对应的相关药品等关系。以往在进行实体识别以及实体关系抽取时,人们主要使用支持向量机(SVM)以及条件随机场(CRF)之类的浅层学习方法,系统还需要融入大量适用于特定学习任务的人工特征,从而会导致部分特征的丢失。本发明则尝试使用深度学习中的循环神经网络(RNN)来完成这一任务,通过综合多种高维度的特征向量,形成越来越抽象的深层表示,从而在实体识别和关系抽取的任务上达到更高的准确率和召回率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611017724.2/2.html,转载请声明来源钻瓜专利网。