[发明专利]修正聚类假设联合成对约束半监督分类方法在审
申请号: | 201711421475.8 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108038511A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 钱鹏江;邵袁;黄华;刘杰;蒋亦樟;陈爱国;田爱平;刘子扬 | 申请(专利权)人: | 江苏江大智慧科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 长沙星耀专利事务所(普通合伙) 43205 | 代理人: | 许伯严 |
地址: | 214500 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 修正 假设 联合 成对 约束 监督 分类 方法 | ||
本发明公开了一种修正聚类假设联合成对约束半监督分类方法,它涉及一种半监督学习算法。它的步骤为:通过FCM方法初始化未标记样本的类隶属度,选择适当的参数λ
技术领域
本发明涉及的是一种半监督学习算法,具体涉及修正聚类假设联合成对约束半监督分类方法。
背景技术
半监督学习是一种介于监督学习与无监督学习之间的学习方式,其学习的基本前提是:除了大量的未标记样本外,对于标记样本还提供诸如类标签一类的监督信息;半监督学习和监督学习的不同之处在于,它能利用大量未标记样本来扩充训练数据集。半监督学习的主要方式是从有监督学习的角度出发,当拥有监督信息的已标记样本不足以训练出好的模型时,如何自动的利用大量未标记样本的信息来辅助提升分类器的性能。
半监督分类时通常是从两个方面来提升分类器的性能:一方面,对已标记样本,往往使用一些高效学习手段来挖掘这些少量的标记样本所蕴含的监督信息等知识,其中这类方法主要通过引荐监督学习的方法完成;另一方面,使用无监督学习的方法来获取大量未标记样本所蕴含的数据分布信息。从监督信息的利用角度而言,数据类标签作为一种最为常见且直接的先验知识而被广泛使用。成对约束,又称为必须关联与不可能关联约束,是另外一种监督信息类型,相对其它监督信息而言它具有更灵活和更实用的特点。在一些实际情况中,只给出成对约束,却未给定样本的类标签数据,这种情况下成对约束便由数据标签转化而来;反观挖掘未标记样本所蕴含的数据分布信息主要是依靠流形假设,聚类假设,平滑假设这三种半监督学习的基本假设实现的。聚类假设的主要思想是“当样本数据间的距离相互比较近时,则它们拥有相同的类别”,根据该假设,分类边界就必须尽可能地通过数据较为稀疏(低密度)的地方,以避免把密集的样本数据点划分到分类决策边界的两侧。在这一假设的前提下,学习算法就可以利用大量未标记的样本数据来分析样本空间中样本数据的分布情况,从而指导学习算法对分类边界进行调整,使其尽量通过样本数据比较稀疏的区域,最终取得非常好的学习性能。
半监督学习方法的核心思想是如何利用少量标记样本和大量未标记样本所蕴含的知识来提升算法的学习能力,目前主流的半监督学习算法主要从未标记样本上获取知识,以挖掘数据的分布信息提升分类器的性能,却忽略了对标记样本等监督信息的深耕利用,一定程度上丢失了标记样本所蕴含的重要信息,没有做到对知识的极大化利用,缺乏有效性和正确性,算法性能低。例如一种改进的聚类假设思想,通过引入隶属度概念修改了聚类假设,将通常的聚类假设,即在相同类簇中的样本有较大的可能拥有相同的类标记,改进为在相同类簇中的样本有相似的隶属度,并在此基础上提出了一种新的半监督分类方法——基于类隶属度的半监督分类方法(SSCCM),但可以看出SSCCM算法作为一种新的半监督分类方法,主要依赖于修正聚类假设,并未做到对监督信息的利用。基于此,本发明结合修正聚类假设与成对约束,设计一种新型的修正聚类假设联合成对约束半监督分类方法尤为必要。
发明内容
针对现有技术上存在的不足,本发明目的是在于提供一种修正聚类假设联合成对约束半监督分类方法,拥有更高的有效性与正确性,进一步挖掘监督信息所包含的知识,提高算法性能,实用可靠,易于推广使用。
为了实现上述目的,本发明是通过如下的技术方案来实现:修正聚类假设联合成对约束半监督分类方法,其步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏江大智慧科技有限公司,未经江苏江大智慧科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711421475.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种棉花的高产种植方法
- 下一篇:一种积分接入方法及其系统