[发明专利]一种标准术语确定方法、装置及存储介质在审
| 申请号: | 202010945776.6 | 申请日: | 2020-09-10 |
| 公开(公告)号: | CN112084781A | 公开(公告)日: | 2020-12-15 |
| 发明(设计)人: | 陆扩建;郑建光;叶碧荣;向玥佳;刘博 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 标准 术语 确定 方法 装置 存储 介质 | ||
本发明提供一种标准术语确定方法、装置及存储介质,该方法包括:确定待处理文本中所包含的多个待处理术语和多个待处理术语所属的术语类型;基于多个待处理术语所属的术语类型,对多个待处理术语进行融合,得到多个融合术语;基于第一术语实体索引数据,查询多个融合术语对应的实体以及多个融合术语对应的实体所属的实体类型;基于多个融合术语对应的实体所属的实体类型,对多个融合术语对应的实体进行合并,得到候选实体;在预设知识图谱中,对候选实体进行路径搜索,得到目标实体类型对应的目标实体;基于第二术语实体索引数据查询目标实体对应的标准术语。本发明可以充分利用知识图谱中的实体之间的内在联系,提高标准术语确定的准确率。
技术领域
本发明属于医疗技术领域,具体涉及一种标准术语确定方法、装置及存储介质。
背景技术
术语标准化是指将给定的术语映射到一套标准的术语集中。例如,在医疗技术领域,疾病术语标准化是指将临床诊断中的疾病,映射到一套标准的医学术语集中。现有的疾病术语标准化方法一般使用机器学习模型进行有监督训练,该方法主要包括以下两个步骤:1)疾病术语召回。使用文本相似度算法,从全体疾病术语中召回出与给定的临床诊断较为相近的若干疾病术语;2)疾病术语排序。使用排序模型,对召回的若干疾病术语进行排序。
但现有技术只考虑了临床诊断与疾病术语之间的文本相似度特征,没有充分利用它们之间内在的医学联系。例如,对于“癌”,无法召回出“恶性肿瘤”相关的术语,术语标准化的准确率较低。同时,机器学习模型依赖极易受到训练数据集质量、模型特征质量等的影响,术语标准化的稳定性和可控性较差。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种标准术语确定方法、装置及存储介质。
一方面,本发明提出了一种标准术语确定方法,所述方法包括:
获取待处理文本;
确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
基于第二术语实体索引数据查询所述目标实体对应的标准术语。
另一方面,本发明实施例提供了一种标准术语确定装置,所述装置包括:
待处理文本获取模块,用于获取待处理文本;
待处理术语获取模块,用于确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
融合模块,用于基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
实体查询模块,用于基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
实体合并模块,用于基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
目标实体获取模块,用于在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
标准术语获取模块,用于基于第二术语实体索引数据查询所述目标实体对应的标准术语。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010945776.6/2.html,转载请声明来源钻瓜专利网。





