[发明专利]一种基于子图划分的图半监督学习的分布式实现方法在审

申请号：	202010068356.4	申请日：	2020-01-21
公开（公告）号：	CN111275201A	公开（公告）日：	2020-06-12
发明（设计）人：	蒋俊正;黄炟鑫;冯海荣;卢军志;池源	申请（专利权）人：	桂林电子科技大学
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	刘梅芳
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于划分监督学习分布式实现方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于子图划分的图半监督学习的分布式实现方法，其特征在于，包括如下步骤：1）构建图；2）优化问题建模；3）子图划分与优化问题分解；4）子问题求解与解的拼接；5）迭代求解；6）分布式求解。这种方法计算时间短、且计算所用数据的获取速度快，在大规模的数据下所获得的计算结果与集中式结果一致。

技术领域

本发明涉及机器学习与图信号处理技术领域，具体是一种基于子图划分的图半监督学习的分布式实现方法。

背景技术

现如今我们所处的时代是一个大数据时代，数据的获取与存储比以往都要简单，在如此庞大的数据下，如何从中提取出有价值的信息变得尤为关键。现如今，人们使用机器学习算法来对大数据进行处理，诸如神经网络的算法在实际应用中取得了一定成果，然而，目前这些算法不仅训练时间较长，且训练所用数据的获取非常困难。

图半监督学习是机器学习算法中一个比较重要的部分，相比于其他机器学习算法，其具有自身的独特优势。首先，图半监督学习是直推式算法，其可以直接计算出结果而无需进行模型的训练，而作为一种半监督学习算法，其对数据的要求很低，只需要小部分的标签已知数据就可以对其余的数据完成标记，然而，虽然图半监督学习方法相对于其他方法可以直接计算出结果，但在数据量大的情况下计算时间也会变长。基于此，需要对目前图半监督学习问题的求解方法进行改进。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于子图划分的图半监督学习的分布式实现方法。这种方法计算时间短、且计算所用数据的获取速度快，在大规模的数据下所获得的计算结果与集中式结果一致。

实现本发明目的的技术方案是：

一种基于子图划分的图半监督学习的分布式实现方法，包括如下步骤：

1)构建图：半监督学习的数据集为数据集内共有N个样本，x_n表示第n个样本，数据集中的标签都来自于内有c类标签，其中，{x₁,x₂,...x_l}的标签信息是已知的、对应的标签信息为而{x_l+1,...,x_n}的标签信息是未知的，依据中样本的相似性，建立一个图与E分别为节点集与边集，中的每一个节点对应数据集中的每一个样本，E中包含节点的连接信息；

2)优化问题建模：将待处理数据集的标签信息表示成一个图信号f＝[f₁,…,f_n]^T，信号值即为对应样本的标签，图半监督学习的优化问题的定义如下：

公式(1)把每一类标签的信息传播给标签信息未知的样本，接着，公式(2)提取出最终的分类结果，公式(1)中F为分类矩阵，Y为已知标签信息矩阵，二者均为N×c的矩阵，Y通过待处理数据集f生成，生成方式如下：

公式(1)中，为匹配项，τ为权重因子，S(F_:,j)为惩罚项，被设置为其中L_norm＝I-D^-1/2WD^-1/2为图归一化拉普拉斯矩阵，其中I为单位阵，D为度矩阵，W为邻接矩阵，将公式(1)中对于第j类标签信息的传播表述为：

公式(4)可表述为：

公式(5)中f_j＝F_:,j，y_j＝Y_:,j，是f_j的转置；

3)子图划分与优化问题分解：采用指示运算符对图进行子图划分，指示运算符为一个对角阵，定义为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010068356.4/2.html，转载请声明来源钻瓜专利网。