[发明专利]疾病实体检索方法、装置、设备及介质有效
申请号: | 202110485329.1 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113221578B | 公开(公告)日: | 2022-11-25 |
发明(设计)人: | 杨依莹;尹曦;周凯捷;杨海钦;费行健 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/247;G06F16/36;G06K9/62;G16H50/70 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疾病 实体 检索 方法 装置 设备 介质 | ||
本发明涉及人工智能领域,提供一种疾病实体检索方法、装置、设备及介质,能够同时结合语义信息和图谱知识信息,更好的实现同义词匹配任务,采用字符级别的特征代替传统的词语级别的特征,有效解决OOV问题,并解决了口语表达的同义词和正式专业语言表达的医疗实体属于不同的语义空间的问题,将知识表征通过自定义的融合机制自适应的集成到对应的语义表征中,通过整合图谱的知识表征,引入更多外部知识,建立实体与同义词之间的隐藏联系,有效缓解了长尾问题,进而通过自定义训练的检索模型实现对疾病实体的检索,有效提高了检索结果的准确度。此外,本发明还涉及区块链技术,检索模型可存储于区块链节点中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种疾病实体检索方法、装置、设备及介质。
背景技术
实体同义词发现任务是指为知识图谱中的实体节点找到其同义词,属于知识图谱构建的一部分,对图谱相关的下游任务有重要作用,例如:疾病实体同义词检索任务中的实体链接、信息检索、知识图谱问答等。
目前普遍采用的疾病实体同义词检索方案主要包括:基于Jaccard的方法、基于Embedding的方法等,即通常通过句法字符串匹配或Embedding匹配来链接实体与同义词。
但是,现有方法还存在以下几个问题:
1)由于一般语料库中医疗类实体的缺乏,医疗词汇通常属于非词库词(out-of-vocabulary,OOV),且口语表达的同义词和正式专业语言表达的医疗实体属于不同的语义空间,较难匹配。
2)实体与同义词间的关系较为隐晦,无法直接得到。
3)长尾效应导致一些医疗实体很少出现在训练数据集中。
发明内容
鉴于以上内容,有必要提供一种疾病实体检索方法、装置、设备及介质,能够通过自定义训练的检索模型实现对疾病实体的检索,有效提高了检索结果的准确度。
一种疾病实体检索方法,所述疾病实体检索方法包括:
获取预先构建的疾病知识图谱中的每个实体,及获取每个实体的同义词;
调用初始网络,其中,所述初始网络的结构中包括编码层、图嵌入层、融合层及匹配层;
将每个实体及每个实体的同义词输入至所述编码层,并利用所述编码层的特征转换层对每个实体及每个实体的同义词进行转换,得到每个实体的字符向量及每个同义词的字符向量;
构建所述疾病知识图谱中每个实体的子图,并将每个实体的子图输入至所述图嵌入层,得到每个实体的知识向量;
基于共享权重的对齐机制,利用所述编码层的全连接层将每个实体的字符向量及每个同义词的字符向量映射到相同的语义空间,得到每个实体的语义表征及每个同义词的语义表征;
利用所述编码层的全连接层将每个实体的知识向量进行语义空间映射,得到每个实体的知识表征;
利用所述融合层对每个实体的语义表征及每个实体的知识表征进行融合,得到每个实体的实体表征;
将每个同义词的语义表征及每个实体的实体表征输入至所述匹配层进行匹配,并获取匹配后损失函数的当前取值;
根据所述当前取值对所述初始网络进行回传训练,直至所述损失函数的取值不再减小,停止训练,得到检索模型;
获取待检索同义词,将所述待检索同义词输入至所述检索模型,并获取所述检索模型的输出作为所述待检索同义词的疾病实体。
根据本发明优选实施例,所述获取每个实体的同义词包括以下一种或者多种方式的组合:
获取与所述疾病知识图谱关联的数据库,从所述数据库中获取每个实体的同义词;及/或
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110485329.1/2.html,转载请声明来源钻瓜专利网。