[发明专利]一种知识图谱中实体对齐方法和装置在审
申请号: | 201810687695.3 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108984661A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 丁军;何翔;朱俊杰 | 申请(专利权)人: | 上海海乂知信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海骁象知识产权代理有限公司 31315 | 代理人: | 赵俊寅 |
地址: | 200082 上海市杨浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对齐 方法和装置 图谱 非结构化数据 链接数据 计算机网络技术领域 结构化数据 描述方式 同义关系 数据源 准确率 开放 抽取 自动化 | ||
1.一种知识图谱中实体对齐方法,其特征在于,包括:
基于同义实体描述方式对不同开放链接数据集中的实体进行对齐;
基于百科中的结构化数据和SVM分类模型对不同百科中的实体进行对齐;
基于语言学模式和开放同义关系抽取模型对非结构化数据中的实体进行对齐;
将所述不同开放链接数据集中的实体、不同百科中的实体以及非结构化数据中的实体进行对齐。
2.根据权利要求1所述的一种知识图谱中实体对齐方法,其特征在于,所述基于同义实体描述方式对不同开放链接数据集中的实体进行对齐的步骤包括:
基于同义实体描述方式抽取不同开放链接数据集中同义关系;
根据抽取的同义关系对不同开放链接数据集中的实体进行对齐。
3.根据权利要求1所述的一种知识图谱中实体对齐方法,其特征在于,所述基于百科中的结构化数据和SVM分类模型对不同百科中的实体进行对齐的步骤包括:
基于百科中的结构化数据对同一百科中的实体进行对齐,所述百科中的结构化数据包括重定向页面数据和信息模块数据;
基于SVM分类模型对不同百科中的实体进行对齐;
其中,所述实体为百科中的一篇文章,所述实体的名称为文章的标题。
4.根据权利要求3所述的一种知识图谱中实体对齐方法,其特征在于,所述基于SVM分类模型对不同百科中的实体进行对齐的步骤包括:
通过倒排索引方法选取两个或多个相似度高的实体作为候选实体;
提取所述候选实体的若干具有分类特性的特征;
将所述候选实体的若干具有分类特性的特征输入训练好的SVM分类模型得到分类结果,所述分类结果包括同义关系和非同义关系;
其中,所述SVM分类模型利用基于百科中的结构化信息和启发式规则自动生成的训练语料训练得到。
5.根据权利要求4所述的一种知识图谱中实体对齐方法,其特征在于,所述具有分类特性的特征包括文章内容相似度、文章标题的余弦相似度、文章标题的编辑距离、包含文章标题的文章数目、包含文章标题的句子数目、文章的长度相似度、文章所含类别标签中相同的数目、文章的重定义页面或信息模块中包含的同意实体中相同的数目和文章信息模块中共同属性的数目的一种或多种。
6.根据权利要求1所述的一种知识图谱中实体对齐方法,其特征在于,所述基于语言学模式和开放同义关系抽取模型对非结构化数据中的实体进行对齐的步骤包括:
基于语言学模式抽取非结构化数据中的同义关系,所述非结构化数据为海量的中文语句;
基于开放同义关系抽取模型抽取非结构化数据中的同义关系;
根据抽取的非结构化数据中的同义关系对非结构化数据中的实体进行对齐。
7.根据权利要求6所述的一种知识图谱中实体对齐方法,其特征在于,所述开放同义关系抽取模型的训练步骤包括:
选取作为同义关系的候选实体;
利用NLP工具对所述候选实体进行分词和词性标注生成训练语料;
提取所述候选实体的词级别和词性级别的特征;
利用CRF模型训练得到开放同义关系抽取模型。
8.一种知识图谱中实体对齐装置,其特征在于,包括:
开放链接数据集对齐模块,用于基于同义实体描述方式对不同开放链接数据集中的实体进行对齐;
百科实体对齐模块,用于基于百科中的结构化数据和SVM分类模型对不同百科中的实体进行对齐;
非结构化数据对齐模块,用于基于语言学模式和开放同义关系抽取模型对非结构化数据中的实体进行对齐;
综合对齐模块,用于将所述不同开放链接数据集中的实体、不同百科中的实体以及非结构化数据中的实体进行对齐。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海海乂知信息科技有限公司,未经上海海乂知信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810687695.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种MySQL数据库主从同步数据去重方法
- 下一篇:一种区块链数据同步方法