[发明专利]一种基于图表示学习的知识图谱跨语言对齐方法在审

专利信息
申请号: 202210020693.5 申请日: 2022-01-10
公开(公告)号: CN114443855A 公开(公告)日: 2022-05-06
发明(设计)人: 李昌赫;张华平;商建云 申请(专利权)人: 北京理工大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/31;G06F16/951;G06F16/35;G06F40/263;G06F40/295;G06F40/30;G06N3/04
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 张利萍
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 图表 学习 知识 图谱 语言 对齐 方法
【权利要求书】:

1.一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,包括以下步骤:

步骤1:获取多语言数据,包括以下步骤:

首先,爬取百科类多语言网站数据,并以html格式存到本地;

然后,对爬取到的数据进行分类,去除脏数据;

步骤2:解析根据步骤1得到的html格式的多语言数据,处理成三元组类型的json格式数据;

步骤3:根据步骤2得到的json格式数据建立多语言知识图谱,包括以下步骤:

步骤3.1:针对爬到的不同来源的数据建立索引;

步骤3.2:根据步骤3.1建立的索引,对不同来源的数据分别构建知识图谱;

步骤4:根据步骤3得到的不同来源的多语言知识图谱,嵌入到统一的向量空间,包括以下步骤:

步骤4.1:关系嵌入,其中,对于由步骤3得到的每种不同来源的知识图谱,都分别进行关系嵌入;

步骤4.2:嵌入空间变换,方法如下:

第一步:随机初始化网络的权重矩阵M;

第二步:将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图谱的关系嵌入表达输入到全连接层中,训练矩阵M;

第三步:根据第二步得到的矩阵M,将不同来源的知识图谱编码进一个统一的嵌入空间中;

步骤5:在向量空间中计算实体之间的距离并对齐。

2.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,步骤1中对数据进行分类,采用以下方法:

第一步:遍历存到本地的数据,得到包含所有数据的实体名称的列表;

第二步:根据第一步得到的数据实体名称列表,随机抽取M条数据,将这M条数据进行人工标注,划分为训练集及验证集;

第三步:使用Bert模型对第二步中得到的训练集进行预训练微调,在验证集进行交叉验证,当准确度达到90%以上后,将第二步中得到的全部M条数据输入到Bert模型中进行训练,得到完整的预训练模型;

第四步:使用第三步中得到的预训练模型,对第一步中得到的包含所有数据实体名称的列表进行分类,去除掉爬取结果中的脏数据,得到最终的包含数据实体名称的列表;

第五步:根据最终的包含数据实体名称的列表,对存在本地的html数据进行筛选保存。

3.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,步骤2包括以下步骤:

首先,对步骤1得到的html格式的多语言数据进行遍历,找到其中的表格信息;

然后,根据上述的表格信息,抽取其中的文字内容,根据数据实体名称建立实体—关系—实体三元组;

最后,将上述得到的三元组,存储为json格式数据文件,保存在本地,并对一部分三元组进行打标,得到种子对齐实体。

4.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,步骤3中,建立知识图谱采用以下方法:

第一步:根据步骤2得到的json格式数据文件,遍历每种语言数据的三元组,得到其头节点、关系、尾节点;

第二步:根据第一步得到的头节点、关系和尾节点,针对数据实体名称建立字段,得到每种语言数据的全部属性信息;

第三步:根据步骤3.1建立的索引,找到不同来源的数据,对于同一来源的数据,利用py2neo库进行标记,并将第二步得到的数据导入关系型数据库Neo4j,根据不同数据源和语种,分别建立知识图谱。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210020693.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top