[发明专利]一种基于聚类和特征匹配的改进kNN算法在审
申请号: | 201811376522.6 | 申请日: | 2018-11-19 |
公开(公告)号: | CN109508747A | 公开(公告)日: | 2019-03-22 |
发明(设计)人: | 孙善宝;罗清彩;于治楼 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征匹配 聚类 样本 分类样本 样本特征 改进 数据挖掘技术 机器学习 聚类算法 快速检索 快速匹配 影响分类 索引 分类 | ||
1.一种基于聚类和特征匹配的改进kNN算法,其特征在于:计算全部已知样本特征Hash值作为标识,生成索引用于快速检索,实现待分类样本的快速匹配分类;确定影响分类结果的主要特征,将样本特征空间进行划分,并通过聚类算法形成已知样本簇,生成Hash作为样本簇特征,计算待分类样本的特征Hash值,完成特征匹配以缩小近邻样本范围,减少计算已知样本与待分类样本间距离的计算。
2.根据权利要求1所述的基于聚类和特征匹配的改进kNN算法,其特征在于:主要包括以下步骤:
S01、计算所有已知样本的特征向量的Hash值作为标识;
S02、将所有已知样本的Hash值标识生成索引,用于搜索;
S03、通过特征分析确定样本特征对于分类结果的影响程度;
S04、使用聚类算法根据主要影响特征将已知样本空间的样本形成多个样本簇;
S05、根据样本簇,计算聚类结果主要特征的Hash值,得到代表该样本簇的多个标识;
S06、将已知样本关联其样本簇,并保存其分类结果及样本簇标识;
S07、如果样本簇里的数据规模仍很大,继续根据其他影响特征进行该样本簇内聚类分析,形成更小的样本簇,返回执行步骤S05;
S08、将聚类算法得到的样本簇标识生成索引,用于搜索;
S09、反复设定K值进行训练,计算测试训练集的误差率,选取误差率最小的K值;
S10、计算待分类样本特征向量的Hash值,利用全部已知样本的特征Hash标识索引进行搜索;
S11、若找到匹配标识,则该匹配标识对应的分类结果为待分类样本的分类结果,算法结束,否则执行步骤S12;
S12、计算待分类样本特征向量主要影响特征的Hash值,利用已知样本簇的特征Hash标识索引进行搜索;
S13、若找不到匹配标识,则后续分类采用的样本空间为当前搜索样本空间,执行步骤S15,若找到匹配标识,则执行步骤S14;
S14、判断该匹配标识对应的样本簇是否还能继续划分,若可以继续划分,则该匹配标识对应的样本簇为新的搜索样本空间,直到找到无法匹配标识的样本簇,则当前搜索样本空间为后续分类采用的样本空间;
S15、遍历步骤S13或S14得到的样本空间,计算待分类样本特征向量与已知向量的距离,挑选出K个最近距离的已知样本;
S16、计算K个元组的多数类,作为待分类样本的类别。
3.根据权利要求2所述的基于聚类和特征匹配的改进kNN算法,其特征在于:还包括以下步骤:
S17、实际确定待分类样本的类别,并加入到已知样本空间,持续优化算法。
4.根据权利要求3所述的基于聚类和特征匹配的改进kNN算法,其特征在于:步骤S01中,将特征向量的Hash值与特征向量及已知样本的分类标签一同存储。
5.根据权利要求4所述的基于聚类和特征匹配的改进kNN算法,其特征在于:步骤S3中,对所有已知样本的特征进行分析,确定特征样本对分类结果的影响程度,并将影响程度进行量化。
6.根据权利要求5所述的基于聚类和特征匹配的改进kNN算法,其特征在于:对影响程度进行量化采用随机数方式进行。
7.根据权利要求5所述的基于聚类和特征匹配的改进kNN算法,其特征在于:所述Hash算法采用SHA512算法。
8.根据权利要求7所述的基于聚类和特征匹配的改进kNN算法,其特征在于:所述聚类算法采用K-MEANS算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811376522.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于卷积神经网络的脉冲星候选体识别方法
- 下一篇:一种聚类方法及装置