[发明专利]一种基于MPI并行化的参考点k近邻分类方法有效

申请号：	201711243607.2	申请日：	2017-11-30
公开（公告）号：	CN108108251B	公开（公告）日：	2021-07-20
发明（设计）人：	陈子忠;梁聪;夏书银	申请（专利权）人：	重庆邮电大学
主分类号：	G06F9/54	分类号：	G06F9/54;G06K9/00;G06K9/62
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400065 ***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 mpi 并行参考近邻分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于MPI并行化的参考点k近邻分类方法，属于数据分类领域。该方法包括步骤：S1：基于参考点的k近邻算法利用样本点到若干参考点的距离来度量彼此间的位置差异，定义位置差异因子，计算训练样本到参考点的相似度，并产生有序的相似度序列；S2：根据测试样本与参考点的相似度从有序序列中搜索训练集中近似近邻样本；S3：从搜索到的近似近邻样本中计算与测试样本的确切相似度，从而找到k个近邻样本并判断类别。本发明借助参考点来加速k近邻的查找并将使用MPI技术实现并行化，从而加快大规模、高维度数据的分类速度。

技术领域

本发明属于数据分类领域，涉及一种基于MPI并行化的参考点k近邻分类方法。

背景技术

分类是数据挖掘领域的一项重要技术，其目的是根据数据集的特点构造一个分类模型(亦称作分类函数、分类器)，该模型能把未知类别的样本映射到给定类别中的某一个或若干个。k近邻算法最初由Cover和Hart于1968年提出，是一种非参数的分类技术，具有鲁棒性、概念清晰、易于实现等优点，并对未知和非正态分布可取得较高的分类准确率。

传统的k近邻算法时间复杂度较高，目前很多学者进行研究后提出了许多的改进算法，这些算法可概括为两大类：

一类是基于树型结构存储与计算的算法，主要包括基于ball树、kd树、PAT、LB树等k近邻算法。这类算法存在的缺点是：随着数据集维度的增加，这些树结构的算法的性能逐渐变差，理由是高维度的数据集会增加树结构的复杂性，从而导致建立树结构、搜索近邻结点和计算距离所耗费的时间增加。另外，由于不同数据集对应的树结构复杂性有所不同，所以这些树结构算法的性能是不稳定的，即在不同数据集之间所表现出来的性能有时会差异较大。

另一类是加速K近邻搜索的算法。主要是从以下几方面改进：(1)减少训练集和优化搜索K近邻；(2)改进相似度度量；(3)优化判决策略。目前存在的不足是计算复杂度较高或者分类精度不高。

随着大数据时代到来，科学研究与各行各业积累了海量的数据资源，为了分析与利用这些数据资源，必须采用有效的数据挖掘技术。kNN算法是一种常用的数据挖掘算法，但其时间复杂度较高、分类速度慢。消息传递接口(Message Passing Interface,MPI)是一种高性能、并行编程工具，同兼顾高性能、可移植性等特点，已经成为消息传递并行编程模式的工业标准，可使用集群或超级计算机并借助MPI编程来解决大规模、高维度数据的k近邻分类问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于MPI并行化的参考点k近邻分类方法，借助参考点来加速k近邻的查找并将使用MPI技术实现并行化，从而加快大规模、高维度数据的分类速度。

为达到上述目的，本发明提供如下技术方案：

一种基于MPI并行化的参考点k近邻分类方法，包括以下步骤：

S1：基于参考点的k近邻算法利用样本点到若干参考点的距离来度量彼此间的位置差异，定义位置差异因子(Location Difference based Factor,LDBF)，设样本点X属于n维空间Rn，设第i个样本则两个样本x_i和y_i之间的LDBF定义为：

计算训练样本到参考点的相似度，并产生有序的相似度序列；

S2：根据测试样本与参考点的相似度从有序序列中搜索训练集中近似近邻样本；

S3：从搜索到的近似近邻样本中计算与测试样本的确切相似度，从而找到k个近邻样本并判断类别。

进一步，所述基于参考点的k近邻算法具体为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】