[发明专利]一种基于数据密度峰值的自标记半监督分类方法及装置在审

申请号：	201611136106.X	申请日：	2016-12-12
公开（公告）号：	CN106778859A	公开（公告）日：	2017-05-31
发明（设计）人：	吴迪;李超华;尚明生;罗辛;袁野	申请（专利权）人：	中国科学院重庆绿色智能技术研究院;深圳市新利迪科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	暂无信息	代理人：	暂无信息
地址：	400714 ***	国省代码：	重庆;85
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据密度峰值标记监督分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明提供一种基于数据密度峰值的自标记半监督分类方法及装置，属于计算机数据处理技术领域。

背景技术

在当今大数据时代，互联网上每天都会产生大量的信息，且每天都在以惊人的速度膨胀，诸如新闻评论、BBS、博客、聊天室、聚合新闻(RSS)等应用每时每刻都会产生大量的数据，这些数据中包含人们对社会各种现象的各种观点和立场，话题涉及政治、经济、军事、娱乐、生活等各个领域。如何在有限的时间范围内对海量数据进行处理和分析，是当前计算机数据处理系统所面临的严重挑战，而机器学习正是解决上述问题的有效手段。

数据分类是机器学习的基本任务，是图像视觉分析、文本分析、语音识别、舆情预警等领域的基础工作。数据分类包含两种形式，即监督分类与半监督分类。监督分类是数据样本全部具有标签；半监督分类是部分数据样本具有标签，部分数据样本不具有标签。在实际中，由于对数据进行标签通常需要专家知识，导致带标签数据获取代价太大，因而无标签数据比带标签数据将多得多。因此，从可应用的信息量角度看出，半监督分类在现实应用中有更强的需求。

目前，半监督分类模型粗略的可分为四类，分别是生成式模型、基于图的模型、半监督支持向量机模型和自标记模型。其中，自标记模型不需要具体的假设，其通过迭代的自我训练和标记方式实现半监督分类，是目前研究的热点。但是，现有的自标记半监督分类方法还存在不足，主要有两点局限：一是某些方法对数据集形状敏感，不能很好的解决非球形数据的适应性问题，导致陷入局部最优解；二是某些算法效率较低，在每次迭代过程中需要重新计算相关参数，导致大数据处理能力不足。

2014年6月，Rodriguez和Laio在《Science》杂志上发表了“一种基于数据密度峰值的聚类方法”(简称其为DPClus)，它通过定义两个参数“局部密度”和“到具有更高局部密度点的最近邻距离”来挑选出类中心点，然后再将其他所有数据样本按照一个向量NNeigh(NNeigh[i]＝j表示第i个对象要划分到与第j个对象相同的类中)的指示，在O(n)的时间复杂度上实现了数据聚类。DPClus具有思想简单、效率高、准确性高、对数据形状鲁棒等优点，因此，将DPClus聚类算法引入自标记半监督分类模型，可解决现有自标记半监督分类模型非球状数据适应性差和大数据处理能力不足的缺点。

发明内容

为了解决上述背景技术中现有的自标记半监督分类方法非球状数据适应性差和大数据处理能力不足的问题，本发明基于数据密度峰值的聚类方法，提供一种自标记半监督分类方法及装置，来对海量大数据实现快速准确的分类处理。

本发明提供一种基于数据密度峰值的自标记半监督分类方法，该方法包括如下步骤：

第一步：通过计算DPClus聚类方法定义的两个参数“局部密度”和“到具有更高局部密度点的最近邻距离”，得出目标向量NNeigh，发现数据内部结构特征，进一步利用标记数据集中带标签数据样本的信息确定类中心点，构造一个类似于图的数据空间结构；

第二步：根据第一步得出的数据空间结构，进入迭代训练过程；首先，利用标记数据集中的带标签数据样本训练分类器；其次，根据数据空间结构，从未标记数据集中选出被标记数据集中所有带标签数据样本所指向的下一个无标签数据样本；最后，利用训练好的分类器，对选出的无标签数据样本进行类别标签判别，并将判别后的数据样本加入到标记数据集中；重复迭代以上过程，直至标记数据集中带标签数据样本所指向的所有下一个无标签数据样本都被选出，并被判别类别标签后加入到标记数据集中，才停止迭代；

第三步：根据第一步得出的数据空间结构，再次进入迭代训练过程；首先，利用标记数据集中的带标签数据样本训练一个分类器；其次，根据数据空间结构，从未标记数据集中选出被标记数据集中所有带标签数据样本所指向的上一个无标签数据样本；最后，利用训练好的分类器，对选出的无标签数据样本进行类别标签判别，并将判别后的数据样本加入到标记数据集中；重复迭代以上过程，直至所有的无标签数据样本都被选出，并被判别类别标签后加入到标记数据集中，才停止迭代；

第四步：利用最终的标记数据集，训练分类器，完成训练。

所述参数“局部密度”的计算公式如下：

其中，d_ij代表是第i个数据样本x_i和第j个数据样本x_j之间的距离，该距离度量可以是任一种距离度量形式；d_c是截断距离。

所述参数“到具有更高局部密度点的最近邻距离”的计算公式如下：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院重庆绿色智能技术研究院;深圳市新利迪科技有限公司，未经中国科学院重庆绿色智能技术研究院;深圳市新利迪科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611136106.X/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据密度峰值的自标记半监督分类方法及装置在审

专利文献下载