[发明专利]一种针对家谱人物属性名称的融合方法有效

申请号：	201810990234.3	申请日：	2018-08-28
公开（公告）号：	CN109284393B	公开（公告）日：	2020-11-06
发明（设计）人：	吴信东;蒋婷婷;卜晨阳;李磊;刘啸剑	申请（专利权）人：	合肥工业大学
主分类号：	G06F16/36	分类号：	G06F16/36;G06F16/35
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种针对家谱人物属性名称融合方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种针对家谱人物属性名称的融合方法，包括：1构建关于家谱人物属性名称的语料库。2过滤包含非中文字符的属性名称。3对属性名称做规则处理；相似度距离判断、字符内容判断、包含关系判断，对属性名称进行融合。4将融合得到的所有属性名称更新进关于家谱人物属性名称的语料库。5对属性名称做模式分类处理；分别定义前缀模式及后缀模式，并根据模式进行分类，达到融合的目的。本发明能够帮助用户对概念表示相同的家谱人物属性名称进行融合，从而提高数据的存储效率。

技术领域

本发明属于数据处理领域，具体的说是一种针对家谱人物属性名称的融合方法。

背景技术

知识图谱这一概念自被提出以来就受到众多学者的关注，知识图谱的发展推动了数据的互联开放。属性名称融合是知识图谱构建过程中的一个重要阶段，其目的是发现属性名称之间的对应关系，并对可融合的一组属性名称采用规范的名称表示。有效的属性名称融合方法有助于建设高质量知识图谱。已有的属性名称融合方法依赖于外部语料库计算属性名称之间的相似度，或依赖结构信息、上下文信息将其表示为向量计算相似度距离；而可用于中文属性名称融合的语料库较少，内容通常具有局限性；并且中文知识库中关于属性的结构、上下文信息较难获取。

特别地，目前关于家谱人物知识图谱中的属性名称的融合工作较少。采用上述方法难以取得较高的准确率，并且无法发现属性名称之间满足的模式，降低了数据的存储效率。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种应用于家谱系统的建设过程中，在获取若干个多源异构的家谱人物属性名称列表后的针对家谱人物属性名称的融合方法，以期能根据属性名称的特点设计规则，定义模式提高属性名称融合的质量，从而能提供一套简洁规范的属性名称，提高系统的数据质量及建设效率。

本发明为解决技术问题采用如下技术方案：

本发明一种针对家谱人物属性名称的融合方法的特点是按如下步骤进行：

步骤1、获取z个不同的家谱人物属性名称的列表，记为{A₁,A₂,…,A_i,…,A_z}，其中，A_i表示第i个家谱人物属性名称的列表，并有表示第i个列表中第t个家谱人物属性名称，h_i表示第i个列表中所包含的家谱人物属性名称的总数，z≥2；1≤i≤z；1≤t≤h_i；

步骤2、初始化i＝1；

步骤3、定义第i个列表Lⁱ，并初始化Lⁱ为空；

步骤4、判断列表Lⁱ是否为空；若为空，则执行步骤5；否则，执行步骤6；

步骤5、获取第i+1个列表Lⁱ⁺¹：

步骤5.1、将第i个列表A_i赋值给第i个列表Lⁱ，并删除第i个列表Lⁱ中含有非中文字符的家谱人物属性名称，得到第一次删除后的列表表示第一次删除后的列表L^′i中第t′个元素，h′_i表示第一次删除后的列表L^′i中包含的元素的总数，1≤t′≤h′_i；

步骤5.2、删除所述第一次删除后的列表L^′i中不符合规则的家谱人物属性名称，得到第二次删除后的列表L^″i；