[发明专利]一种基于近邻密度和半监督KNN的集成自训练方法在审
申请号: | 201710386592.9 | 申请日: | 2017-05-26 |
公开(公告)号: | CN107194428A | 公开(公告)日: | 2017-09-22 |
发明(设计)人: | 吕佳;黎隽男 | 申请(专利权)人: | 重庆师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 重庆信航知识产权代理有限公司50218 | 代理人: | 穆祥维 |
地址: | 401331 重*** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于近邻密度和半监督KNN的集成自训练方法,用近邻密度方法选取初始化的已标注样本,避免已标注样本周围k个近邻样本成为已标注候选集,使初始化的已标注样本间的距离尽量分散,以更好的反应样本原始空间结构,同时在已标注样本候选集中选取密度最大的样本作为已标注样本。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性。 | ||
搜索关键词: | 一种 基于 近邻 密度 监督 knn 集成 训练 方法 | ||
【主权项】:
一种基于近邻密度和半监督KNN的集成自训练方法,其特征在于,包括用近邻密度方法选出初始化分类器的训练集和用集成自训练方法做自训练:S1所述用近邻密度方法选出初始化分类器的训练集具体如下:输入:原始数据集D;参数:已标样本数N_L,近邻数K1,平均余弦相似度近邻K2;输出:已标记数据集L,未标记数据集U;过程:S1.1令L,U为空,设置flag等于0;S1.2从D中随机选取一个样本并确定其K1近邻,将这该样本及其近邻这K1+1个样本的flag设置为1;S1.3计算这K1+1个样本的平均余弦相似度,计算每个样本的平均余弦相似度的时候用该样本周围的K2个近邻样本计算,将平均余弦相似度最大的样本加入到L中;S1.4令count=1S1.5选出初始化分类器的训练集1.5.1)当count<=N_L且有flag为0的样本时,从flag为0的样本中随机选取一个样本x;否则跳转至步骤1.5.6);1.5.2)找出样本x的K1近邻,在K1近邻中删除flag为1的样本,并将x和删除flag为1的样本后剩余的样本形成集合R;1.5.3)将R中的样本的flag设置为1;1.5.4)计算R中每个样本的平均余弦相似度,每个样本的平均余弦相似度计算的时候用该样本周围的K2个近邻样本计算,将平均余弦相似度最大的样本加入到L中;1.5.5)令count=count+1,返回到步骤1.5.1)1.5.6)结束,输出已标记数据集L,U=D‑L;S2采用集成自训练方法做自训练如下:输入:已标数据集L,未标注数据集U;参数:num,num_increment,KL_num,K,C(参数选取通过k折交叉验证);输出:训练好的NB;流程如下:S2.1当U不为空时,执行如下步骤S2.2‑S2.8,否则结束并输出训练好的NB;S2.2第i次迭代,在L上建立分类器NB(i)和SSKNN(i),SSKNN(i)建立分类器的时候,设置利用的有标记样本数为K,无标记样本数为C,令临时变量tnum=num;S2.3用NB(i)对U分类,得到类标号NLi,最大后验概率NMAPi,后验概率NPij(j=1,2,...,s);用分类器SSKNN(i)对U分类,得到类标号KLi,最大后验概率KMAPi,后验概率KPij(j=1,2,...,s),其中s为类别种类;S2.4NB(i)的置信度和SSKNN(i)的置信度分别为它们两个分类器的最大后验概率:confidenceNi=NMAPi,confidenceKi=KMAPi;然后从大到小排序confidenceNi和confidenceKi;选出同时满足NB(i)和SSKNN(i)投票一致且置信度confidenceNi和confidenceKi都排在前num中的样本,记为Ri,并得到类标号RLi;S2.5当Ri不为空时令num=num+num_increment,再次按照步骤S2.3和S2.4的方法结合分类器NB(i)和SSKNN(i),选出同时满足投票一致且置信度confidenceNi和confidenceKi都排在前num中的样本,记为Ri,并得到类标号RLi;重复本步骤直至Ri为空,则结束本步骤;S2.6令num=tnum,计算NB(i)和SSKNN(i)对U集分类后样本的相对熵VEi和投票熵KEi,从小到大排序KEi,然后选出相对熵VEi排序在前KL_num和投票熵KEi为1的样本CSi,并给专家标注,得到类标号CSLi;S2.7扩展L集,L=L+{(CSi,CSLi)}+{(Ri,RLi)};U=U‑CS‑R;S2.8令i=i+1并返回执行步骤S2.1。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆师范大学,未经重庆师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710386592.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种内芯组件
- 下一篇:一种压力感应型可变孔径中空纤维分离膜的制备方法