[发明专利]一种标准术语确定方法、装置及存储介质在审
| 申请号: | 202010945776.6 | 申请日: | 2020-09-10 |
| 公开(公告)号: | CN112084781A | 公开(公告)日: | 2020-12-15 |
| 发明(设计)人: | 陆扩建;郑建光;叶碧荣;向玥佳;刘博 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/295 | 分类号: | G06F40/295 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;贾允 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 标准 术语 确定 方法 装置 存储 介质 | ||
1.一种标准术语确定方法,其特征在于,所述方法包括:
获取待处理文本;
确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型;
基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语;
基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型;
基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体;
在预设知识图谱中,对所述候选实体进行路径搜索,得到目标实体类型对应的目标实体;
基于第二术语实体索引数据,查询所述目标实体对应的标准术语。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中所包含的多个待处理术语和所述多个待处理术语所属的术语类型,包括:
获取所述预设知识图谱中的实体的名称信息;
基于文本匹配算法,从所述待处理文本中抽取与所述名称信息相匹配的多个待处理术语;
将与所述多个待处理术语相匹配的名称信息所对应的实体类型,作为所述多个待处理术语所属的术语类型。
3.根据权利要求1所述的方法,其特征在于,所述基于所述多个待处理术语所属的术语类型,对所述多个待处理术语进行融合,得到多个融合术语,包括:
确定所述多个待处理术语对应的字符串以及相应的字符串长度;
当所述多个待处理术语属于同一术语类型时,基于所述多个待处理术语对应的字符串以及相应的字符串长度,对所述多个待处理术语进行融合,得到所述多个融合术语;
当所述多个待处理术语属于不同术语类型时,获取不同术语类型之间的关联信息,基于所述多个待处理术语的字符串、相应的字符串长度以及所述关联信息,对所述多个待处理术语进行融合,得到所述多个融合术语;
当所述多个待处理术语包括所述属于同一术语类型的待处理术语和所述属于不同术语类型的待处理术语时,基于所述属于同一术语类型的待处理术语的字符串以及相应的字符串长度,对所述属于同一术语类型的待处理术语进行融合,得到初始融合术语;获取不同术语类型之间的关联信息,基于目标待处理术语的字符串、相应的字符串长度以及所述关联信息,对所述目标待处理术语进行融合,得到所述多个融合术语,所述目标待处理术语包括所述初始融合术语和所述属于不同术语类型的待处理术语。
4.根据权利要求1所述的方法,其特征在于,所述基于第一术语实体索引数据,查询所述多个融合术语对应的实体以及所述多个融合术语对应的实体所属的实体类型,包括:
将所述多个融合术语作为关键字,在所述第一术语实体索引数据中进行搜索,得到所述多个融合术语对应的实体标识信息、实体类型和实体名称等级信息;所述第一术语实体索引数据基于对所述预设知识图谱进行实体识别处理建立,所述第一术语实体索引数据包括实体标识信息、实体类型、实体名称等级信息以及术语之间的映射关系;
基于所述多个融合术语对应的实体标识信息,在所述预设知识图谱中查找所述多个融合术语对应的实体。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个融合术语对应的实体所属的实体类型,对所述多个融合术语对应的实体进行合并,得到候选实体,包括:
当所述多个融合术语对应的实体属于同一实体类型时,在所述预设知识图谱上,搜索与所述多个融合术语对应的最近公共祖先,得到所述候选实体;
当所述多个融合术语对应的实体不属于同一实体类型时,所述预设知识图谱上,基于最短路径算法,搜索所述多个融合术语对应的实体之间的第一最短路径;将所述第一最短路径上的实体作为所述候选实体;
当所述多个融合术语包括所述属于同一实体的融合术语和所述属于不同类型的融合术语时,在所述预设知识图谱上,搜索与所述属于同一实体类型的实体对应的最近公共祖先,得到初始合并结果;基于最短路径算法,搜索所述初始合并结果和所述属于不同实体类型的实体之间的第二最短路径,将所述第二最短路径上的实体作为所述候选实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010945776.6/1.html,转载请声明来源钻瓜专利网。





