[发明专利]基于半监督学习的成对向量投影数据分类方法及系统在审

申请号：	202010274957.0	申请日：	2020-04-09
公开（公告）号：	CN111507387A	公开（公告）日：	2020-08-07
发明（设计）人：	张莉;薛杨涛;屈蕴茜;章晓芳;王邦军;周伟达	申请（专利权）人：	苏州大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	苏州市中南伟业知识产权代理事务所(普通合伙) 32257	代理人：	张荣
地址：	215000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督学习成对向量投影数据分类方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于半监督学习的成对向量投影数据分类方法及系统,包括：根据两类训练数据构建邻接图，求解拉普拉斯矩阵，将所述拉普拉斯矩阵代入拉普拉斯流形正则项中；分别计算正类拉普拉斯流形正则项和负类拉普拉斯流形正则项、正类数据的类内散度矩阵和负类数据的类内散度矩阵、以及正类类间散度矩阵和负类类间散度矩阵；根据上述数据得到最优问题，并求解得到两个最优的投影向量；将无标签数据通过核函数投影到高维空间，将两个最优的投影向量投影到两个不同的子空间，分别计算两个最优的投影向量到各子空间中心的距离，得到无标签数据的标签。本发明有利于提高分类精度。

技术领域

本发明涉及数据分类的技术领域，尤其是指一种基于半监督学习的成对向量投影数据分类方法及系统。

背景技术

半监督学习是利用少量的标签数据和大量的无标签数据进行训练学习，其中拉普拉斯支持向量机(Laplacian support vector machine，简称LapSVM)是一个具有代表性的半监督分类方法，被广泛应用于各个领域。拉普拉斯支持向量机通过图构造有标签和无标签数据的几何信息，再结合支持向量机，实现分类。拉普拉斯支持向量机的优化方法同传统的支持向量机一样，通过二次规划求得一个最优超平面。然而在两类分类问题中，一个分界面很难处理复杂的数据问题，两个非平行的超平面可轻易解决此类问题，因此提出了一种有关多权重向量投影支持向量机(multi-weight vector projection support vectormachine，简称MVSVM)。

所述多权重向量投影支持向量机利用标签数据找到两个权重向量代替超平面实现分类。每个最优权重向量使得同类数据尽可能相近，异类数据尽可能远离。该方法的求解方式不同于支持向量机(support vector machine,简称SVM)的二次规划，它通过特征分解两个优化函数求得每类的权重向量，将待分类数据分别与权重向量相乘投影，其中离投影中心距离最小的即为该数据的类别。多权重向量投影支持向量机是一种有监督的分类方法，无法处理大量的无标签数据，只依靠少量的标签数据，该方法会降低分类精度，且适用场景有限。

发明内容

为此，本发明所要解决的技术问题在于克服现有技术中分类精度低，且适用场景有限的问题，从而提供一种分类精度高，且适用场景广泛的基于半监督学习的成对向量投影数据分类方法及系统。

为解决上述技术问题，本发明的一种基于半监督学习的成对向量投影数据分类方法，包括：根据两类训练数据构建邻接图，求解拉普拉斯矩阵，将所述拉普拉斯矩阵代入拉普拉斯流形正则项中；分别计算正类拉普拉斯流形正则项和负类拉普拉斯流形正则项、正类数据的类内散度矩阵和负类数据的类内散度矩阵、以及正类类间散度矩阵和负类类间散度矩阵；根据上述数据得到最优问题，并求解得到两个最优的投影向量；将无标签数据通过核函数投影到高维空间，将两个最优的投影向量投影到两个不同的子空间，分别计算两个最优的投影向量到各子空间中心的距离，得到无标签数据的标签。

在本发明的一个实施例中，所述求解拉普拉斯矩阵的方法为：获得两类训练数据，根据所述训练数据构建图，得到邻接矩阵，根据所述邻接矩阵，得到拉普拉斯矩阵。

在本发明的一个实施例中，所述两类训练数据为其中表示训练数据，y_i＝{-1，+1}表示标签信息，m为维度，n为训练数据总个数，X_l为包含l个带标签训练数据的数据集，X_u为包含n-1个无标签训练数据的数据集。

在本发明的一个实施例中，所述邻接矩阵为A：所述拉普拉斯矩阵L＝D-A，其中D_ii＝∑_jA_ij。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于苏州大学，未经苏州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010274957.0/2.html，转载请声明来源钻瓜专利网。

上一篇：融合社交信任影响力的协同过滤推荐算法
下一篇：一种双层5G微带阵列天线

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于半监督学习的成对向量投影数据分类方法及系统在审

专利文献下载