[发明专利]一种基于深度置信网络的链路预测方法在审
申请号: | 201611244761.7 | 申请日: | 2016-12-29 |
公开(公告)号: | CN106997373A | 公开(公告)日: | 2017-08-01 |
发明(设计)人: | 李涛;王次臣;李华康 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08;G06Q50/00 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 李湘群 |
地址: | 210023 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 置信 网络 预测 方法 | ||
技术领域
本发明属于人工神经网络技术领域,具体涉及一种基于深度置信网络的链路预测方法。
背景技术
基于游走的网络表示学习算法,例如deepwalk,是利用了word2vec的理论方法,将网络中的结点与自然语言处理中的词单元进行了类比,将网络中的一条一条的连接路径类比作自然语言处理中的一条语句;利用概率语言模型中求解每一个词语之间共现关系(即所有的条件概率参数)的方法来探讨网络结点之间的连接结构;利用生成词向量的方法生成了网络中结点的向量表示方法。通过这种类比算法得到的网络结点的向量,反映了对应网络结点与周围邻居结点联系的结构特征,同时实现了网络结点的低维向量表示,这就为针对网络数据的一些数据挖掘问题,比如网络结点分类,链路预测,社区发现等等,提供了一个新的使用机器学习算法进行处理或是优化的思路。
深度学习是机器学习的一个分支,是基于传统人工神经网络计算模型,利用新的训练方式改进传统浅层神经网络的一类智能算法的总称。传统的浅层的神经网络模型通常面临着数据特征人工或者自行提取、容易求得局部极小值、多层(超过三层)的神经网络模型很难进行优化三个难题。Hinton于2006年提出深度置信网络,深度置信网络计算模型采用全新的网络结构和训练方式,很好的解决了上述的三个问题。现在,DBN已被广泛作为一种典型的改造传统的浅层神经网络计算模型网络层数和训练方式的一种深度学习算法。
链路预测是通过给定网络的结点属性信息和网络的连接结构信息对网络中尚未存在边的结点对之间出现边的可能性的预测。链路预测任务既包括对网络中已经存在但尚未被发现的边的预测,也包括对网络中尚未存在但未来有可能出现的边的预测。其中,前者属于对网络的数据挖掘过程,而后者涉及对网络的演化的研究。
根据网络数据所代表的物理含义的不同,链路预测具有不同的研究价值,同时也吸引了不同领域的学者的深入研究。在最常见的社交网络中,链路预测的原理已被广泛地应用到好友推荐、兴趣推荐等功能的实现中。另外,链路预测的理论和方法还可以被用于在已知部分结点标签的网络中对未知的结点的标签的类型进行预测。在生物领域,对蛋白质相互作用网络中蛋白质之间的相互作用关系,人类依旧知之甚少。如果可以设计一种对该网络行之有效的链路预测算法,利用该算法的预测结果来指导对蛋白质相互作用关系的研究,设计具体生物实验来验证,那么将节省大量的实验开销,同时大大推动人类认识蛋白质相关作用原理的步伐。
为了评价链路预测算法的有效性,通常的做法是将E分为测试集和训练集两部分。链路预测算法处理的无向网络中只包含了训练集中的边信息。在链路预测算法处理之前要将测试集中的边从网络中移除,然后,利用链路预测算法对测试集中的边与采样得到的不存在边的结点对进行打分。最后,使用链路预测结果的不同评判指标,对打分结果,即预测结果进行评估,检测该链路预测算法的预测准确性。但上述传统方法存在链路预测算法预测正确率偏低,以及对网络的各种结构特征的普适性偏低的问题。
发明内容
本发明是针对传统的链路预测算法预测正确率偏低,以及对网络的各种结构特征的普适性偏低的问题。
为达到上述目的,本发明提出一种基于深度置信网络的链路预测方法,具体包含以下步骤:
步骤1:训练数据采集模块完成从给定网络结构中随机采样得到训练边集、验证边集和测试边集,其中每一个边集中包含等比例的正样本和负样本;
步骤2:网络结点特征表示模块在经过训练数据采集模块处理过的网络中,使用deepwalk算法生成每一个网络结点的特征表示;
步骤3:边特征表示生成模块完成对训练边集、验证边集和测试边集中的每一条边计算边的特征表示,为了符合深度置信网络对输入数据的要求,还需要对生成的边的特征向量进行归一化处理;
步骤4:深度置信网络训练模块完成深度置信网络结构的建立,并加载训练边集、验证边集和测试边集进行训练。
进一步,步骤1中,每个边集的大小可以灵活配置,可以通过train_percent参数配置在所用现存的边中训练边集的正样本所占的比例;通过valid_percent参数配置验证边集和测试边集之间的比例关系。
又进一步,上述验证边集和测试边集中的正样本需要从原始网络结构中去除,在去除过程中为了保证网络的连通性,需要首先建立一个网络的生成树,负样本的采集需要在正样本采集之前,以防止采集到正样本采集中去除的边。
进一步,步骤3中对于得到的每一个结点的特征表示,使用拼接得到一条边的特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611244761.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种光伏智能道路系统
- 下一篇:布局修正方法及系统