[发明专利]一种本体匹配方法、装置和计算机可读存储介质在审
申请号: | 201810450235.9 | 申请日: | 2018-05-11 |
公开(公告)号: | CN110472059A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 游树娟;李小涛 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 11270 北京派特恩知识产权代理有限公司 | 代理人: | 张振伟;张颖玲<国际申请>=<国际公布> |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配元素 虚拟文档 相似度 向量 计算机可读存储介质 向量模型 阈值时 映射 预设 匹配 | ||
本发明实施例提供了一种本体匹配方法、装置和计算机可读存储介质,所述方法包括:分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
技术领域
本发明涉及移动通信技术领域,尤其涉及一种本体匹配方法、装置和计算机可读存储介质。
背景技术
现有的本体匹配方案主要包含手动匹配和自动化匹配两类。手动匹配由领域专家利用本体编辑软件根据自己掌握的领域知识来寻找本体间的匹配关系,进而实现本体的组合。自动化的本体匹配方法主要分为两种:基于语义特征的本体匹配方法,以及基于语义特征和结构特征的匹配方法。其中,基于语义特征的匹配方法是通过计算不同本体中元素(类、属性)本身的相似度,确定可能的本体匹配关系。基于语义和结构特征的匹配方法不仅计算元素本身的相似度,而且考虑了本体中元素的上下位关系即元素之间子类、父类元素之间的相似度。
上述两种自动化的本体匹配方法本质上都是通过计算词语相似度实现的,只考虑了本体中元素描述信息中词语之间的相似度,并没有考虑本体元素描述信息整体的上下文语义。其次,基于语义特征和结构特征的匹配方法虽然考虑了本体的层次结构信息,但是只考虑了父类、子类等直接上下位结构关系,并没有考虑间接上下位关系对本体相似度的影响。
发明内容
有鉴于此,本发明实施例期望提供一种本体匹配方法、装置和计算机可读存储介质。
为达到上述目的,本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种本体匹配方法,该方法包括:
分别获取第一本体和第二本体中待匹配元素的三种虚拟文档;
基于已训练的doc2vec向量模型确定所述三种虚拟文档的向量;
基于所述三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度;
确定所述相似度大于预设阈值时,将两个本体中相应的待匹配元素进行映射。
其中,所述待匹配元素的三种虚拟文档包括:
待匹配元素本身的虚拟文档、待匹配元素直接上下位元素的虚拟文档,以及待匹配元素三层以内的所有间接上下位元素的虚拟文档。
其中,所述获取第一本体和第二本体中待匹配元素的三种虚拟文档,包括:
获取第一本体中待匹配元素A本身的虚拟文档DA1、待匹配元素A直接上下位元素的虚拟文档DA2,以及待匹配元素A三层以内的所有间接上下位元素的虚拟文档DA3;
获取第二本体中待匹配元素B本身的虚拟文档DB1、待匹配元素B直接上下位元素的虚拟文档DB2,以及待匹配元素B三层以内的所有间接上下位元素的虚拟文档DB3。
可选的,所述基于已训练的doc2vec向量确定所述三种虚拟文档的向量之前,该方法还包括:
基于语料库训练一个doc2vec向量模型。
其中,所述基于三种虚拟文档的向量,确定第一本体中待匹配元素与第二本体中待匹配元素之间的相似度,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团有限公司,未经中国移动通信有限公司研究院;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810450235.9/2.html,转载请声明来源钻瓜专利网。