[发明专利]一种以近邻熵为查询策略的主动学习方法在审

专利信息
申请号: 202111046551.8 申请日: 2021-09-07
公开(公告)号: CN113837248A 公开(公告)日: 2021-12-24
发明(设计)人: 董明刚;农琼;吕秋月 申请(专利权)人: 桂林理工大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 541004 广西壮*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 近邻 查询 策略 主动 学习方法
【说明书】:

发明公开一种基于k近邻算法思想的近邻熵主动学习方法,融入了k近邻算法中“同类相聚,异类相离”的思想,包括:给定训练集和测试集,使用训练集训练分类器并利用这个分类器对测试集进行分类;遍历测试集,寻找与每一个未标记数据邻近的k个未标记数据;计算当前未标记数据及其邻近数据的熵值,以此得到该数据的近邻熵;由近邻熵值按从大到小的顺序对测试集排序,最后挑选出w个近邻熵值大的数据交给专家标记;更新训练集与测试集,利用更新后的训练集训练分类器;循环以上操作,直到满足停止条件。本发明可以使用尽量少的且信息量大的数据训练分类器,这样不仅避免挑选到既处于分类边界又是孤立点的数据,还减少了标记数据所需的代价。

技术领域

本发明公开了一种以近邻熵为查询策略的主动学习方法,具体涉及数据挖掘及信息处理技术领域。

背景技术

针对实际应用中只有少量已标记数据和大量未标注记数据的情况,主动学习(Active Learning)是有效的解决方法。主动学习的过程是迭代进行的,每次训练都会从未标记数据池中挑选出信息量最大的样本进行标记,然后将这些数据添加到已标记数据集中进行训练,不断提升分类器的分类效率。主动学习不需要标记大量的数据,而只需要标记其中少量的对提高模型性能有帮助的数据,这样不仅可以减少大批量标记数据的人力和物力,降低标记成本,同时还可以提高模型的分类性能。

基于池的主动学习方法(Pool-Based Active Learning)是主动学习中适用性最广、研究最为充分的一种方法。该方法的数据是直接从未标记数据池中挑选的,且每次都能从中挑选出对当前分类器贡献最大的数据交由分类器进行判断,当判断有误时就交给专家进行人工标记,然后将新标记的数据加入到训练集中。由评判数据“价值”的标准不同,基于池的主动学习方法主要可以分为三种:基于不确定性缩减、基于版本空间缩减以及基于泛化误差缩减的方法。

熵方法是基于不确定性缩减的主动学习中的一种方法。熵是一种信息论度量,他表示对分布进行“编码”所需要的信息量。在数学领域中,常常用信息熵来衡量一个系统的不确定性或是描述某些信息的不纯度等。在主动学习领域中,可以使用熵来衡量数据的不确定性,熵值越大代表数据的不确定性越大,对熵值最大的未标记数据进行标记可以有效提升分类器的性能。

k近邻算法是机器学习算法中最简单的算法之一。在进行分类时,通常利用“同类相聚,异类相离”的思想,将当前数据归类为邻近数据多数属于的类别。而基于不确定性的主动学习方法通常忽略了数据的先验分布,k近邻算法的算法原理正好可以弥补这个不足,这为本发明提供了可能。

发明内容

针对当前不确定性采样策略忽略了数据先验分布的问题,考虑将k近邻算法的思想融入到基于熵的不确定性方法中,提出一种基于近邻熵的主动学习方法。该方法同时考虑当前未标注数据及其邻近的K个未标注数据的分类情况,以当前数据与邻近的K个数据的平均熵值作为度量方式,最后倾向于选择近邻熵值最大的数据进行标记并且加入到训练集中。这样不仅可以避免挑选到处于分类边界的孤立点,还有效降低了数据标记的代价,训练出更加有效的分类器。

本发明思路:使用初始化训练集训练分类器;用训练好的分类器对测试集中的数据进行分类预测;计算当前未标记数据及其邻近的K个未标记数据的熵值,得到当前未标记数据的近邻熵;循环执行以上操作,直到将测试集中的未标记数据都遍历一遍,最后得到每一个未标记数据的近邻熵;按照近邻熵值的大小对测试集中的数据进行排序,选取前W个近邻熵值大的未标记数据进行标记;将新标记的数据添加到训练集中用于分类器的下一次训练;循环以上操作,直到满足终止学习。

具体步骤为:

步骤1使用初始训练集L对分类器进行训练。

步骤2利用训练好的分类器对测试集中的所有数据进行分类预测。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111046551.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top