[发明专利]一种基于短文本相似度计算的知识图谱融合方法在审
申请号: | 201910608464.3 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110472061A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 郑志蕴;米高扬;李钝;李伦;吴建萍 | 申请(专利权)人: | 郑州大学;郑志蕴;米高扬 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 *** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 融合 相似度计算 短文本 预处理 计算机技术 拓扑结构 语义信息 字面含义 降噪 携带 应用 教育 | ||
本发明实现了一种基于短文本相似度计算的知识图谱融合方法,属于教育与计算机技术的交叉领域。知识图谱融合在实际应用中主要以图融合的形式存在,在已有的工作中,多是关注知识图谱中的拓扑结构而忽略了实体名称字面含义中所携带的语义信息。为解决以上问题本专利发明了基于短文本相似度计算的知识图谱融合方法。本专利结合众包思想,获取个体知识子图,在获取子图之后,主要通过子图降噪和相似度计算,对知识子图进行预处理然后在进行知识图谱融合。本发明提出了具体的进行知识图谱融合的方法,与传统同类知识图谱融合方法相比,本发明的方法有较高的正确性与有效性,最终能得到有效的图集。
技术领域
本发明涉及一种基于短文本相似度计算的知识图谱融合方法,属于教育与计算机技术的交叉领域。
背景技术
知识图谱作为语义网的数据支撑,被广泛应用于语义搜索、深度问答和在线教育等领域。在教育方面,目前主流仍是通过一份试卷来判定一位学习者对课程的掌握情况及本季度的学习状况,而无法使学习者拥有个性化、多元化的学习方式,不能使学生更为主动的参与到学习知识的过程中。
知识图谱实质上是一个语义网,清晰明确的表达了物理世界中的实体及其相互关系。目前,已经涌现出一大批知识图谱的相关产品,其中具有代表性的国外产品有谷歌公司使用的Knowledge Vault、苹果公司使用的Wolfram Alpha、智能计算引擎及Freebase等。这些已有的知识图谱研究目标是从无/半结构的互联网信息中获取有结构知识、自动融合构建知识库、服务知识推理等。其中,知识融合是知识图谱构建的重要步骤。知识融合在实际应用中主要以图融合的形式存在。图融合可以被认为是基于知识相似度的计算任务,通过欧式距离或余弦距离等方式计算任意两个对象之间的相似度。在已有的工作中,多是关注知识图谱中的拓扑结构而忽略了实体名称字面含义中所携带的语义信息。因此在图融合过程中,不仅需要考虑图的结构信息,而且需要引入语义信息。本专利针对知识图谱构建中的知识融合步骤,提出了基于短文本相似度计算的知识图谱融合方法。
发明内容
技术问题:本发明针对上述方案中存在的不足,提出了一种知识图谱融合的方法。本专利是结合众包的方式,基于短文本相似度计算的知识子图融合方法。该发明平衡各节点的结构连接和语义信息,通过学习融合权重,将高维向量转换为双邻接矩阵,得到具有高属性语义相似性的密集连接图。
技术方案:本发明提供一种基于短文本相似度计算的知识图谱融合方法。结合众包思想,获取个体知识子图,在获取子图之后,主要通过子图降噪和相似度计算,对知识子图进行预处理并融合。首先,根据子图的顶点权重值和顶点关联权重值,采用基于加权策略的子图降噪算法对其进行约简处理;其次,对具有相同顶点数的子图进行同等划分,得到若干图集合,并对其进行图集合相似度计算,将获取的候选结果集进行求精;最后,通过对集合内各个子图的顶点所携带的标签含义进行短文本相似度计算,得到最终有效的图集。因此,本发明特征主要包括以下步骤:
(1)基于众包的方法,利用群体智慧,获取知识子图;
(2)基于双约简策略,对已获取的知识子图进行降噪处理,对已降噪的知识子图进行顶点约简的处理;
(3)基于图集合距离的相似度计算方法计算短文本相似度;
(4)基于向量运算的双邻接矩阵融合方法进行子图融合;
具体变量描述情况如说明书附图图1所示。
下面是对每个步骤实现的具体描述:
基于众包的方法,利用群体智慧,获取知识子图的步骤:
本发明结合众包思想,首先学习者根据已学过的课程并加入自己的理解构建属于自己认知范围内的个体知识子图,获得个体知识子图集。
基于双约简策略知识子图降噪的步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州大学;郑志蕴;米高扬,未经郑州大学;郑志蕴;米高扬许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910608464.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:题目推送方法、装置、计算机设备和存储介质
- 下一篇:识别命名实体的方法及装置