[发明专利]知识表示方法、系统、存储介质以及计算机设备在审
申请号: | 202011107288.4 | 申请日: | 2020-10-16 |
公开(公告)号: | CN114386607A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 王斌锋;乔建行;马征 | 申请(专利权)人: | 北京鸿享技术服务有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06F16/36;G06K9/62 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 王玉双;朱颖娴 |
地址: | 100015 北京市朝阳区酒*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 表示 方法 系统 存储 介质 以及 计算机 设备 | ||
1.一种知识表示方法,基于现有的知识图谱,其特征在于,包括:
获取用户下载的多个软件,获取多个所述软件对应的标签;
获取各个所述标签的相似标签;
将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;
将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;
基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;
对所有所述样本三元组进行表示学习。
2.根据权利要求1所述的知识表示方法,其特征在于,获取用户下载的多个软件,获取多个所述软件对应的标签的步骤包括:
根据所述用户的软件下载行为获取多个所述软件的ID,构成软件的ID序列;
分别将多个所述软件的ID映射为所述软件对应的标签的ID,获得所述标签的ID序列。
3.根据权利要求2所述的知识表示方法,其特征在于,获取各个所述标签的相似标签的步骤包括:
将所述标签的ID序列中的各个所述标签的ID进行向量表示;
根据两两所述标签的ID的所述向量表示计算两两所述标签的相似度;
根据两两所述标签的相似度获得各个所述标签的相似标签。
4.根据权利要求3所述的知识表示方法,其特征在于,所述将所述标签的ID序列中的所述标签的ID进行向量表示的步骤包括:
将所述标签的ID序列输入至word2vec模型进行训练;
基于训练后的所述word2vec模型获得所述标签的ID的Embedding向量表示。
5.根据权利要求4所述的知识表示方法,其特征在于,两两所述标签的相似度大于预定阈值时,两两所述标签互为相似标签,所述根据两两所述标签的相似度获得各个所述标签的相似标签的步骤包括:
分别获取各个所述标签的topn相似标签。
6.根据权利要求1所述的知识表示方法,其特征在于,所述基于广度优先搜索算法BFS对所述第二知识图谱进行采样的步骤包括:
基于所述广度优先搜索算法BFS采样所述第二知识图谱的2-hop的所述第二三元组。
7.根据权利要求1所述的知识表示方法,其特征在于,对所有所述样本三元组进行表示学习的步骤包括:
基于翻译模型训练所有所述样本三元组,获得所述第二知识图谱的静态Embedding表达。
8.一种知识表示系统,基于现有的知识图谱,其特征在于,包括:
标签获取模块,用于获取用户下载的多个软件,获取多个所述软件对应的标签;
相似标签获取模块,用于获取各个所述标签的相似标签;
图谱构建模块,用于将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;
图谱融合模块,用于将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;
采样模块,用于基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;
知识表示模块,用于对所有所述样本三元组进行表示学习。
9.一种存储介质,其特征在于,用于存储一种用于执行权利要求1~7中任意一种知识表示方法的计算机程序。
10.一种计算机设备,包括存储介质、处理器以及存储在所述存储介质上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~7任一项所述的知识表示方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鸿享技术服务有限公司,未经北京鸿享技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107288.4/1.html,转载请声明来源钻瓜专利网。