[发明专利]基于由P系统进化的可编辑样本集的K最近邻分类算法在审
申请号: | 201710642135.1 | 申请日: | 2017-07-31 |
公开(公告)号: | CN108009561A | 公开(公告)日: | 2018-05-08 |
发明(设计)人: | 彭宏;胡娟;陈光春;张国洲;黄文成;王军 | 申请(专利权)人: | 西华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 四川君士达律师事务所 51216 | 代理人: | 芶忠义 |
地址: | 610039 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 系统 进化 编辑 样本 近邻 分类 算法 | ||
本发明提供的基于由P系统进化的可编辑样本集的K最近邻分类算法包括:组织型P系统设计:系统包括q个细胞,每个细胞中包括m个对象,细胞中的对象为n维二进向量,用于指示原始样本集中的哪些样本被包含在可编辑样本集中;P系统的q个细胞协同地搜索最优指示向量Z:每个细胞中包含一个最好对象,每个细胞使用转运规则将其最好对象转运到环境中,更新环境中所对应的最好对象,并将自己的最好对象转运给下一个细胞;可编辑样本集生成:采用离散二进制PSO的速度‑位移模型作为进化规则,依据停机条件停机后,环境中的最好对象即为最优的可编辑样本集;KNN分类器依据生成的可编辑样本集构造分类规则,对未知样本进行分类,提高了分类器的分类性能。
技术领域
本发明属于数据挖掘分类技术领域,具体地说,涉及一种基于由P系统进化的可编辑样本集的K最近邻分类算法。
背景技术
K最近邻(k-Nearest Neighbor,KNN))分类算法是最受欢迎的监督学习分类方法。它是一种在训练阶段不依赖于建立模型的非参数方法,其分类规则是基于给定的训练实例与待测试实例之间的相似度函数。KNN算法已成为数据挖掘中最相关的算法,它是机器学习在各个领域中许多应用的一个组成部分。分类算法已广泛被应用于各个方面:比如智能系统、计算机视觉、生物信息学、海洋探测、航空航天技术、工业生产、安全监控、科学理论研究等许多重要领域。
但是KNN分类算法也有其不足的地方,1)高的计算复杂性:为了找出k最近邻居集,需要计算未知样本与所有训练样本之间的距离(或相似性)。2)对训练样本的依赖性:分类器仅由训练样本生成的,没有使用其它数据,分类器严重地依赖于训练样本,哪怕训练集有较小的改变,分类器需要重新计算。3)样本之间没有权重区别:所有训练样本被等同对待,这些样本之间没有差别,即使大的训练。4)维数灾问题:当样本的特征维数太高时,分类器的性能会严重变差。
发明内容
有鉴于此,本发明所要解决的技术问题是提供了一种基于由P系统进化的可编辑样本集的K最近邻分类算法,以解决当训练样本集太大时,KNN分类器需要花费过多的时间来计算未知样本与所有训练样本的距离(或相似性)的问题。
为解决上述技术问题,本发明公开了一种基于由P系统进化的可编辑样本集的K最近邻分类算法。所述方法包括:
组织型P系统设计:系统包括q个细胞,每个细胞中包括m个对象,细胞中的对象为n维二进向量,用于指示原始样本集中的哪些样本被包含在可编辑样本集中;
P系统的q个细胞协同地搜索最优指示向量Z:每个细胞中包含一个最好对象,每个细胞使用转运规则将其最好对象转运到环境中,更新环境中所对应的最好对象,并将自己的最好对象转运给下一个细胞;
可编辑样本集生成:采用离散二进制PSO的速度-位移模型作为进化规则,依据停机条件停机后,环境中的最好对象即为最优的可编辑样本集;
KNN分类器依据生成的可编辑样本集构造分类规则,对未知样本进行分类。
如上所述的算法,可选的,采用一个3维整数数组来表示P系统中的所有对象:Z(q,m,n);
第i细胞中第j个对象记为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西华大学,未经西华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710642135.1/2.html,转载请声明来源钻瓜专利网。