[发明专利]知识表示方法、系统、存储介质以及计算机设备在审
申请号: | 202011107288.4 | 申请日: | 2020-10-16 |
公开(公告)号: | CN114386607A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 王斌锋;乔建行;马征 | 申请(专利权)人: | 北京鸿享技术服务有限公司 |
主分类号: | G06N5/02 | 分类号: | G06N5/02;G06F16/36;G06K9/62 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 王玉双;朱颖娴 |
地址: | 100015 北京市朝阳区酒*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 知识 表示 方法 系统 存储 介质 以及 计算机 设备 | ||
本发明适用于知识表示技术领域,提供了一种知识表示方法、系统、存储介质以及计算机设备,所述知识表示方法基于现有的知识图谱,包括:获取用户下载的多个软件,获取多个所述软件对应的标签;获取各个所述标签的相似标签;将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;对所有所述样本三元组进行表示学习。借此,本发明可以丰富知识和提高泛化性能。
技术领域
本发明涉及知识表示技术领域,尤其涉及一种知识表示方法、系统、存储介质以及计算机设备。
背景技术
在计算机视觉、自然语言处理、推荐系统,神经网络、深度学习的应用越来越广泛。在深度学习的应用过程中,Embedding这样一种将离散变量转变为连续向量的方式为神经网络在各方面的应用带来了很大帮助。其中基于知识图谱表示学习已经获得了广泛关注,且已在一些工业场景成功落地。
在真实工程应用中,存在人工标记知识或者知识缺失的情况。人工标记知识成本较高,且将人力浪费在标注数据上,如果知识欠缺那么会导致知识表达不够充分,学习效果不好的问题。同时,目前的知识图谱表示学习,大多数主要基于直接相连的三元组构建训练数据,泛化性低以及难以学习网络结构表达。
综上所述,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。
发明内容
针对上述的缺陷,本发明的目的在于提供一种知识表示方法、系统、存储介质以及计算机设备,可以丰富知识和提高泛化性能。
为了实现上述目的,本发明提供了一种知识表示方法,基于现有的知识图谱,包括:
获取用户下载的多个软件,获取多个所述软件对应的标签;
获取各个所述标签的相似标签;
将所述标签以及所述相似标签构成三元组,所述三元组为第一三元组,所述第一三元组形成第一知识图谱;
将所述现有的知识图谱与所述第一知识图谱进行融合形成第二知识图谱;所述第二知识图谱中的三元组为第二三元组;
基于广度优先搜索算法BFS对所述第二知识图谱进行采样,获得样本三元组;
对所有所述样本三元组进行表示学习。
根据所述的知识表示方法,获取用户下载的多个软件,获取多个所述软件对应的标签的步骤包括:
根据所述用户的软件下载行为获取多个所述软件的ID,构成软件的ID序列;
分别将多个所述软件的ID映射为所述软件对应的标签的ID,获得所述标签的ID序列。
根据所述的知识表示方法,获取各个所述标签的相似标签的步骤包括:
将所述标签的ID序列中的各个所述标签的ID进行向量表示;
根据两两所述标签的ID的所述向量表示计算两两所述标签的相似度;
根据两两所述标签的相似度获得各个所述标签的相似标签。
根据所述的知识表示方法,所述将所述标签的ID序列中的所述标签的ID进行向量表示的步骤包括:
将所述标签的ID序列输入至word2vec模型进行训练;
基于训练后的所述word2vec模型获得所述标签的ID的Embedding向量表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京鸿享技术服务有限公司,未经北京鸿享技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107288.4/2.html,转载请声明来源钻瓜专利网。