[发明专利]一种基于子图划分的图半监督学习的分布式实现方法在审
申请号: | 202010068356.4 | 申请日: | 2020-01-21 |
公开(公告)号: | CN111275201A | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 蒋俊正;黄炟鑫;冯海荣;卢军志;池源 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 桂林市华杰专利商标事务所有限责任公司 45112 | 代理人: | 刘梅芳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 划分 监督 学习 分布式 实现 方法 | ||
本发明公开了一种基于子图划分的图半监督学习的分布式实现方法,其特征在于,包括如下步骤:1)构建图;2)优化问题建模;3)子图划分与优化问题分解;4)子问题求解与解的拼接;5)迭代求解;6)分布式求解。这种方法计算时间短、且计算所用数据的获取速度快,在大规模的数据下所获得的计算结果与集中式结果一致。
技术领域
本发明涉及机器学习与图信号处理技术领域,具体是一种基于子图划分的图半监督学习的分布式实现方法。
背景技术
现如今我们所处的时代是一个大数据时代,数据的获取与存储比以往都要简单,在如此庞大的数据下,如何从中提取出有价值的信息变得尤为关键。现如今,人们使用机器学习算法来对大数据进行处理,诸如神经网络的算法在实际应用中取得了一定成果,然而,目前这些算法不仅训练时间较长,且训练所用数据的获取非常困难。
图半监督学习是机器学习算法中一个比较重要的部分,相比于其他机器学习算法,其具有自身的独特优势。首先,图半监督学习是直推式算法,其可以直接计算出结果而无需进行模型的训练,而作为一种半监督学习算法,其对数据的要求很低,只需要小部分的标签已知数据就可以对其余的数据完成标记,然而,虽然图半监督学习方法相对于其他方法可以直接计算出结果,但在数据量大的情况下计算时间也会变长。基于此,需要对目前图半监督学习问题的求解方法进行改进。
发明内容
本发明的目的是针对现有技术的不足,而提供一种基于子图划分的图半监督学习的分布式实现方法。这种方法计算时间短、且计算所用数据的获取速度快,在大规模的数据下所获得的计算结果与集中式结果一致。
实现本发明目的的技术方案是:
一种基于子图划分的图半监督学习的分布式实现方法,包括如下步骤:
1)构建图:半监督学习的数据集为数据集内共有N个样本,xn表示第n个样本,数据集中的标签都来自于内有c类标签,其中,{x1,x2,...xl}的标签信息是已知的、对应的标签信息为而{xl+1,...,xn}的标签信息是未知的,依据中样本的相似性,建立一个图与E分别为节点集与边集,中的每一个节点对应数据集中的每一个样本,E中包含节点的连接信息;
2)优化问题建模:将待处理数据集的标签信息表示成一个图信号f=[f1,…,fn]T,信号值即为对应样本的标签,图半监督学习的优化问题的定义如下:
公式(1)把每一类标签的信息传播给标签信息未知的样本,接着,公式(2)提取出最终的分类结果,公式(1)中F为分类矩阵,Y为已知标签信息矩阵,二者均为N×c的矩阵,Y通过待处理数据集f生成,生成方式如下:
公式(1)中,为匹配项,τ为权重因子,S(F:,j)为惩罚项,被设置为其中Lnorm=I-D-1/2WD-1/2为图归一化拉普拉斯矩阵,其中I为单位阵,D为度矩阵,W为邻接矩阵,将公式(1)中对于第j类标签信息的传播表述为:
公式(4)可表述为:
公式(5)中fj=F:,j,yj=Y:,j,是fj的转置;
3)子图划分与优化问题分解:采用指示运算符对图进行子图划分,指示运算符为一个对角阵,定义为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010068356.4/2.html,转载请声明来源钻瓜专利网。