[发明专利]一种基于图表示学习的知识图谱跨语言对齐方法在审
申请号: | 202210020693.5 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114443855A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 李昌赫;张华平;商建云 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/951;G06F16/35;G06F40/263;G06F40/295;G06F40/30;G06N3/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 图表 学习 知识 图谱 语言 对齐 方法 | ||
1.一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,包括以下步骤:
步骤1:获取多语言数据,包括以下步骤:
首先,爬取百科类多语言网站数据,并以html格式存到本地;
然后,对爬取到的数据进行分类,去除脏数据;
步骤2:解析根据步骤1得到的html格式的多语言数据,处理成三元组类型的json格式数据;
步骤3:根据步骤2得到的json格式数据建立多语言知识图谱,包括以下步骤:
步骤3.1:针对爬到的不同来源的数据建立索引;
步骤3.2:根据步骤3.1建立的索引,对不同来源的数据分别构建知识图谱;
步骤4:根据步骤3得到的不同来源的多语言知识图谱,嵌入到统一的向量空间,包括以下步骤:
步骤4.1:关系嵌入,其中,对于由步骤3得到的每种不同来源的知识图谱,都分别进行关系嵌入;
步骤4.2:嵌入空间变换,方法如下:
第一步:随机初始化网络的权重矩阵M;
第二步:将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图谱的关系嵌入表达输入到全连接层中,训练矩阵M;
第三步:根据第二步得到的矩阵M,将不同来源的知识图谱编码进一个统一的嵌入空间中;
步骤5:在向量空间中计算实体之间的距离并对齐。
2.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,步骤1中对数据进行分类,采用以下方法:
第一步:遍历存到本地的数据,得到包含所有数据的实体名称的列表;
第二步:根据第一步得到的数据实体名称列表,随机抽取M条数据,将这M条数据进行人工标注,划分为训练集及验证集;
第三步:使用Bert模型对第二步中得到的训练集进行预训练微调,在验证集进行交叉验证,当准确度达到90%以上后,将第二步中得到的全部M条数据输入到Bert模型中进行训练,得到完整的预训练模型;
第四步:使用第三步中得到的预训练模型,对第一步中得到的包含所有数据实体名称的列表进行分类,去除掉爬取结果中的脏数据,得到最终的包含数据实体名称的列表;
第五步:根据最终的包含数据实体名称的列表,对存在本地的html数据进行筛选保存。
3.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,步骤2包括以下步骤:
首先,对步骤1得到的html格式的多语言数据进行遍历,找到其中的表格信息;
然后,根据上述的表格信息,抽取其中的文字内容,根据数据实体名称建立实体—关系—实体三元组;
最后,将上述得到的三元组,存储为json格式数据文件,保存在本地,并对一部分三元组进行打标,得到种子对齐实体。
4.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法,其特征在于,步骤3中,建立知识图谱采用以下方法:
第一步:根据步骤2得到的json格式数据文件,遍历每种语言数据的三元组,得到其头节点、关系、尾节点;
第二步:根据第一步得到的头节点、关系和尾节点,针对数据实体名称建立字段,得到每种语言数据的全部属性信息;
第三步:根据步骤3.1建立的索引,找到不同来源的数据,对于同一来源的数据,利用py2neo库进行标记,并将第二步得到的数据导入关系型数据库Neo4j,根据不同数据源和语种,分别建立知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210020693.5/1.html,转载请声明来源钻瓜专利网。