[发明专利]一种精准描述知识图谱中元素语义的子图抽取方法有效
申请号: | 202011175554.7 | 申请日: | 2020-10-29 |
公开(公告)号: | CN112256835B | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 汪鹏;徐忠锴 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/216;G06F40/295;G06F40/30 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 蒋昱 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 精准 描述 知识 图谱 元素 语义 抽取 方法 | ||
1.一种精准描述知识图谱中元素语义的子图抽取方法,其特征在于,该方法包括以下内容:
1)知识图谱的图表示和预处理:根据知识图谱的三元组表示特点,将其转换为一个带标签的有向图Gr,由于Gr中两节点间可能存在多条边,因此Gr是一个多图,采用一种结合知识图谱原始图和二部图特点的混合表示方式,并这种图称为知识图谱混合图Gh,对Gh分别进行语义扩充、语义明确和精炼操作;
2)语义子图:语义子图是用于精确描述知识图谱中给定的概念、属性和实体元素的有限规模子图,其并不强调语义完整性,即知识图谱中有限个三元组便能精确描述元素在该知识图谱中的语义,且元素语义的解释无须用到整个知识图谱全部的知识,语义子图由描述给定元素的Top-k个三元组组成;
3)语义子图抽取的电路模型构建:提出一种利用电路模型来解决语义子图抽取,即将抽取语义子图的问题转化为一个电路模型进行求解,基于步骤1)处理后得到的图Gh,图中的边传递信息的能力对应于电路中的电导率C,图中的顶点容纳信息的能力对应于电路中的电压V,电流I表征单位时间内在边上通过的信息量,并给图中增加一个接地的陷入点z,同时让其它的所有点都增加一条指向z的边,知识图谱中s点的语义子图即从s到z的连接子图中捕获电流最大的子图;
4)电路模型中的电导率计算方法:针对知识图谱图的特点,提出了一套电导率权重计算规则,知识图谱的图中主要包括概念、属性、实体及元语,首先分析不同成分传递信息时的权重,然后给出由它们构成的三元组的电导率计算规则,包括频率规则、层次规则、实体空间规则、实体属性描述规则和独生实体优先规则;
规则1.频率规则
如果一个元素频繁出现在不同三元组中,那么当它对应知识图谱图中顶点时,该顶点的度会较大;当它对应图中边时,这条边会涉及较多三元组,这里将元素出现次数视为频率,可见,元素频率越大,它传递信息的能力越弱,这种传递能力可表示为权重,为了避免直接用频率倒数衡量权重而导致权重随频率增加而迅速下降,先引入一个退火函数g(x,m):
其中,m是一个预先设定的常数;ε是一个很小的正常数,用于避免出现分子为0的情况,这里将退火函数中的x设为元素频率f(e),m设为某成分中元素的最大频率fmax(ek),则元素对应的权重为:
μf(e)=g(f(e),fmax(ek))
此时退火函数中的前半部分衡量元素在知识图谱中的全局频率权重,后半部分衡量在同类元素中的相对频率权重;
这种根据元素频率计算权重的方法称为频率规则,频率规则对知识图谱中的概念、关系和元语都适用,由于知识图谱一般不会将领域内的实例相关的知识全部加入进来,因此得到的实例频率并不可信,所以实例权重计算时不采用频率规则;
规则2.层次规则;
层次关系rdfs:subClassOf和rdfs:subPropertyOf是知识图谱中的概念和关系重要组织形式,直观上,元素越是位于层次结构中的底层,它传播信息的能力就越强,因此,由层次造成的传播能力可用如下权重衡量:
其中d(ei)表示元素在层次中的深度,而Hmax(ek)表示ei所处的层次结构最大深度;
层次规则适用于概念和关系;
规则3.实例空间规则;
概念和关系都是知识图谱中的抽象资源,它所对应的实体或事实的集合称为其实例空间,称概念C对应的全部实例的集合Isp(C)={ai|ai∈C}为它的实例空间,称关系P所对应的形如ai,P,bj的全部二元组ai,bi的集合为它的实例空间,记作Isp(P)={ai,bi|ai∈Dom(P),bj∈Rng(P)},其中Dom(P)和Rng(P)分别表示P的值域和定义域;
在知识图谱描述中,组成概念C的实例空间的ai满足ai,rdf:type,C形式的三元组,组成关系P的实例空间的ai,bj满足ai,P,bj形式的三元组,概念的实例空间的规模越大,说明它对应的实例越多,则它位于概念层次上层的可能性越大,因此包含此概念的三元组传递的信息就越少,如果关系的实例空间规模越大,说明该关系被使用得越普遍,因此相应的三元组传递的信息就越少,考虑实例空间所得到的权重仍然可用退火函数计算:
其中|Isp(e)|表示元素e对应的实例空间大小,表示知识图谱中同类元素所对应的实例空间大小的最大值;
规则4.实例属性描述规则;
通常,当一个实例比较重要时,知识图谱会用较多的三元组来对其进行描述,由于对任意实例ai的描述都具有ai,pm,bj的形式,这里属性值bj可能是具体数值或其它实例对象,因此可通过统计pm的数目来衡量知识图谱对于实例ai的描述程度,采用如下的公式来计算实例的这种权重:
其中,dp(ai)和op(ai)分别表示描述中使用的DatatypeProperty和ObjectProperty,dpmax(ak)和opmax(ak)是所有实例的描述中使用的两类属性的最大数目;
规则5.独生实例优先规则;
设实例ai对应的概念是C,那么C中所包含的实例个数越少,这些实例传播信息的能力越强,即概念的实例越少,这些实例传递的语义信息越多,这种计算实例权重的规则称为独生实例优先规则,采用退火函数来计算:
μlo(ai)=g(|C(ai)|,Cmax(ak))
其中,|C(ai)|表示实例a对应的概念所包含的实例总数,|Cmax(ak)|表示知识图谱中概念所包含的最大实例数目;
5)语义子图的抽取算法:为解决抽取语义子图的效率问题,采用一种贪心策略设计语义子图抽取算法,算法中的贪心思想是优先选择分配电流与所引入的新节点之比最大的前缀路径,设Gmax是所求的语义子图,首先令Gmax为空,接下来迭代地不断加入从s到z的前缀路径到Gmax中,随着Gmax不断增长,新加入的路径可能包含Gmax中已经存在的点,贪心规则优先选择分配电流和给Gmax所带来的新节点之比最大的前缀路径;
对于所述步骤5)中的语义子图抽取问题,其可分解为两个子问题:(1)遍历有向图中所有从s到z的前缀路径,计算每条路径上的分配电流;(2)遍历所有由前缀路径组成的满足图规模约束的子图,计算每个子图的捕获电流,并取其中捕获电流最大者为语义子图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011175554.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种沥青路面用集料耐候性评价设备及其工作过程
- 下一篇:一种桥梁结构减震装置