[发明专利]一种以邻域熵为查询策略的三支决策主动学习方法在审
申请号: | 202111046552.2 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113837249A | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 董明刚;吕秋月 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广西壮*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 邻域 查询 策略 决策 主动 学习方法 | ||
本发明公开一种以邻域熵为查询策略的三支决策主动学习方法。该方法包括:使用已标记数据集训练分类器;再将训练后的分类器对测试集进行分类并记录其分类结果;计算所有未标记数据的邻域熵,并根据邻域熵值的大小将未标记数据分为正域、边界域和负域;分别对不同区域的数据进行处理;选择部分最有价值的未标记数据,再交由人类专家或注解器标记;标记后加入已标记数据集并用于分类器的下一次训练;循环迭代执行以上过程,直到达到预设条件或期望的评估标准停止学习。本发明可以选择少量最有价值的数据并进行标记,避免了选择冗余数据和对分类性能贡献不大的数据,同时能够减少对大量未标记数据进行标记所需的代价。
技术领域
本发明属于数据挖掘及信息处理技术领域,尤其涉及一种以邻域熵为查询策略的三支决策主动学习方法。
背景技术
在实际生活中,未标记数据比较丰富且易于获得,这些未标记数据中蕴含着很多的有效信息,然而从大量未标记数据中手动提取出有用信息需要耗费大量的人力和物力,因此如何从未标记数据中挖掘出最有效的信息成为了一大研究热点。主动学习(ActiveLearning)是广泛应用的机器学习方法之一,其旨在减少所需标记数据的数量,即只需使用较少的训练数据就能训练出性能较好的分类器。主动学习通过使用合适的查询策略迭代选择最有价值的未标记数据,并交由专家进行标记,之后用查询到的样本训练分类模型,以提高模型的精确度。
在主动学习领域,针对查询策略选择未标记数据的类型不同,可以将主动学习分为以下三种:1)基于信息性的主动学习方法:信息性衡量的是对该未标记数据进行分类时的不确定性,因此该方法不考虑大量未标记数据的分布信息,而仅仅根据少量数据的信息来选择未标记数据进行标记,因此容易出现偏差;2)基于代表性的主动学习方法:代表性衡量的是该未标记数据代表整个数据空间的能力,因此该方法主要使用聚类算法选择位于高密度区域的未标记数据,这使得分类器的性能仅取决于聚类结果的质量,而忽略了单个数据的信息性;3)融合信息性和代表性的主动学习方法:该方法考虑将信息性和代表性相结合,从而找出最有价值的未标记数据进行标记。但是,所提出的算法的性能通常不是最佳的,因为信息性标准和代表性标准之间很少互相增强,相反,在未标记数据的选择上往往存在分歧。
信息量是用来度量事件具有价值的程度,其大小与随机事件发生的概率有关。其中一个事件发生的概率越大,信息量越少,产生的价值较低;一个事件发生的概率越小,信息量越大,产生的价值较高。信息熵(Entropy)是信息论中的一个概念,信息熵代表事件蕴含的平均信息量,即事件的期望信息量。其反映了随机变量的随机程度,也就是不确定性,信息熵越大说明随机变量不确定性越大,分布越分散。在主动学习领域中,信息熵可以用来衡量分类器对数据分类结果的不确定程度,可以通过选择信息性最高的数据进行标记,从而提升分类器的泛化能力。
邻域熵(Neighborhood Entropy)通过结合信息熵和样本分布特征,以邻域内所有未标记数据的加权熵值作为度量方式。三支决策思想通过决策函数将实体映射到三个区域,以此解决不同区域的数据具有不同价值的问题。因此,采用邻域熵为查询策略的三支决策主动学习方法可以选择出同时具有信息性和代表性的未标记数据,查询其标签后训练更有效的分类器,这为本发明提供了可能。
发明内容
针对基于信息熵的主动学习方法选择数据时仅考虑数据的信息性,提出一种以邻域熵为查询策略的三支决策主动学习方法。该方法设计了基于邻域熵的选择策略,该策略结合了数据空间的分布特征,以选择同时具有信息性和代表性的未标记数据进行标记并加入训练集。同时采用邻域熵作为决策函数将未标记数据集映射到三个区域,再对不同区域的数据分别处理,以解决不同区域的数据具有不同价值的问题。该方法不但避免了选择冗余数据,而且还能提升训练集的多样性,从而可以训练出更有效的分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111046552.2/2.html,转载请声明来源钻瓜专利网。