[发明专利]面向知识图谱构建的细粒度中文属性对齐方法有效

专利信息
申请号: 201710077245.8 申请日: 2017-02-14
公开(公告)号: CN106897403B 公开(公告)日: 2019-03-26
发明(设计)人: 付琨;许光銮;梁霄;孙显;李峰;孙鸿志;王楠 申请(专利权)人: 中国科学院电子学研究所
主分类号: G06F16/25 分类号: G06F16/25
代理公司: 北京安博达知识产权代理有限公司 11271 代理人: 徐国文
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 知识 图谱 构建 细粒度 中文 属性 对齐 方法
【权利要求书】:

1.一种面向知识图谱构建的细粒度中文属性对齐方法,其特征在于,包括:

步骤A,针对每一数据集的各个属性分别生成属性的扩展;

步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;

步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;

步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;

步骤E,将所述特征输入训练好的分类器,输出分类结果;

所述的步骤B包括:

步骤B1:确定属性值的数据类型,任意属性值l可看作由n个原子文本ai拼接而成,其中n≥1,1≤i≤n,i,n均为正整数,任意属性值l的数据类型通常与其中一个或几个关键的原子文本的类型保持一致,使用如下启发式准则判断属性值l的数据类型:

其中I是指示函数,时为1,否则为0;gL为求文本长度的函数,U为数据类型的集合;

步骤B2:确定属性的数据类型,采用下式,对属性p的所有属性值的数据类型进行统计,即计算每个类型出现次数占其属性值总数的比例,假定比例低于阈值θ的类型为噪声导致的错误,

其中,Ep表示属性p的扩展中所有实体构成的集合,le,p表示给定实体e和属性p时对应的属性值,代表属性值le,p的数据类型。

2.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,步骤A中属性的扩展是指在该属性所在的语义数据集中,所有该属性相关的实体和属性值对所构成的二元组集合。

3.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,所述的步骤C包括:

步骤C1:属性值相似度的计算,若给定两个属性值l1和l2的关键原子文本集合A1和A2及其最佳匹配集则属性值的相似度可由下式计算,

其中sa函数用于求两个原子文本值的相似度;

步骤C2:基于属性值相似度计算属性的相似度,计算两个属性p1和p2相似度的公式如下:

其中,sl为计算属性值相似度的函数,le,p表示给定实体e和属性p时对应的属性值。

4.根据权利要求1所述的细粒度中文属性对齐方法,其特征在于,所述的步骤D中,属性p1和p2分别来自任意两个数据集D1和D2,所述的步骤D生成特征包括:

针对所有关系的特征f1=sp(p1,p2);

针对相关关系的特征f2=sp(p′1,p2),f3=sp(p1,p'2)其中,p′1是D2中p1同名的属性,p'2是D1中与p2有同名的属性;

针对包含关系的特征

其中,Mp为属性p的扩展中所有实体类别的集合,ce表示实体e的概念,

其中I是指示函数,满足条件时为1否则为0。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所,未经中国科学院电子学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710077245.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top