[发明专利]一种基于聚类和特征匹配的改进kNN算法在审
申请号: | 201811376522.6 | 申请日: | 2018-11-19 |
公开(公告)号: | CN109508747A | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 孙善宝;罗清彩;于治楼 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征匹配 聚类 样本 分类样本 样本特征 改进 数据挖掘技术 机器学习 聚类算法 快速检索 快速匹配 影响分类 索引 分类 | ||
本发明公开了一种基于聚类和特征匹配的改进kNN算法,属于机器学习和数据挖掘技术领域。本发明的基于聚类和特征匹配的改进kNN算法,计算全部已知样本特征Hash值作为标识,生成索引用于快速检索,实现待分类样本的快速匹配分类;确定影响分类结果的主要特征,将样本特征空间进行划分,并通过聚类算法形成已知样本簇,生成Hash作为样本簇特征,计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,减少计算已知样本与待分类样本间距离的计算。该发明的基于聚类和特征匹配的改进kNN算法能够提升执行效率和准确性,具有很好的推广应用价值。
技术领域
本发明涉及机器学习和数据挖掘技术领域,具体提供一种基于聚类和特征匹配的改进kNN算法。
背景技术
随着社会的经济,社会经济飞速发展,各种高科技技术也顺势发展起来。近年来,人工智能技术发展迅速,其商业化速度超出预期,人工智能将会给整个社会带来颠覆性的变化,已经成为未来各国重要的发展战略。随着云计算和大数据的发展,特别是海量数据的出现,从大数据中进行学习,打破了传统的方式,对各个领域产生了颠覆性的变革。产生了海量的数据,也迫切需要将这些数据转换成有用的信息和知识,而云中心强大的计算力和不断演进的机器学习算法使得数据挖掘的效率不断提升,挖掘出更有价值的信息和知识,广泛用于各类应用中。
kNN算法即k-Nearest Neighbor,为K最近邻算法是数据挖掘分类技术中的经典算法,是一种用于分类和回归的非参数统计方法。其核心是计算测试样本与样本特征空间的样本之间的距离,得到k个最相邻的样本,如果这k个最近邻样本大多数属于某一类别,则该样本也属于这个类别,并具有该类别样本的特性。kNN算法广泛用于文本分类,模式识别,图像处理等领域。kNN算法具有简单、易理解、以实现的特点,然而其缺点也非常明显,例如样本不平衡,一个类的样本容量很大,而其他类样本容量很小时,会影响最终的判断精度,另外计算量需求较大,尤其是存在海量已知样本的情况,需要计算带分类样本与全体已知样本之间的距离,分类速度和效率大大降低。在这种情况下,如何有效的对已知样本进行优化处理,提升kNN算法的精度和效率成为亟须解决的问题。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够提升执行效率和准确性的基于聚类和特征匹配的改进kNN算法。
为实现上述目的,本发明提供了如下技术方案:
一种基于聚类和特征匹配的改进kNN算法,计算全部已知样本特征Hash值作为标识,生成索引用于快速检索,实现待分类样本的快速匹配分类;确定影响分类结果的主要特征,将样本特征空间进行划分,并通过聚类算法形成已知样本簇,生成Hash作为样本簇特征,计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,减少计算已知样本与待分类样本间距离的计算。
该基于聚类和特征匹配的改进kNN算法,计算全部已知样本特征Hash值作为其标识,生成索引用于快速检索,实现了待分类样本的快速匹配分类;通过特征分析确定样本特征对于分类结果的影响程度,根据主要影响特征利用聚类算法将样本特征空间进行划分,找到有代表性的已知样本簇,生成Hash作为样本簇特征;设置已知样本的数据存储,选定有效的k值,完成算法的预处理;分类过程是将待分类测试元组计算其全部特征和主要特征的Hash值。分类过程通过计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,特别是当已知样本空间的样本数量足够大时,极大的减少了已知样本与待分类样本间距离的计算次数,同时充分考虑到样本特征对分类结果影响的差异性,能够有效的提高效率和精确。
作为优选,该基于聚类和特征匹配的改进kNN算法主要包括以下步骤:
S01、计算所有已知样本的特征向量的Hash值作为标识;
S02、将所有已知样本的Hash值标识生成索引,用于搜索;
S03、通过特征分析确定样本特征对于分类结果的影响程度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811376522.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于卷积神经网络的脉冲星候选体识别方法
- 下一篇:一种聚类方法及装置