[发明专利]一种适用于无标签不平衡数据流的在线主动学习方法在审

申请号：	201910001840.2	申请日：	2019-01-02
公开（公告）号：	CN109800799A	公开（公告）日：	2019-05-24
发明（设计）人：	吴庆耀;张一帆;谭明奎	申请（专利权）人：	华南理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	何淑珍;江裕强
地址：	510640 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据流线性分类器主动学习样本非对称标签标注二阶信息时序错误预测访问策略分类性能更新策略数据更新学习效率正类样本流数据更新预测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种适用于无标签不平衡数据流的在线主动学习方法，包括：无标签数据流时序的输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，即正类样本数量稀少；根据提出的非对称访问策略，线性分类器针对不平衡数据，动态地决定需要被标注标签的样本；根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学习效率；本发明的一种适用于无标签不平衡数据流的在线主动学习方法利用样本的二阶信息，提出了新的非对称策略；该非对称策略同时考虑样本的标注和模型的更新，能够更好地解决样本的类别不平衡问题，并提升基于流数据的主动学习模型的分类性能。

技术领域

本发明涉及在线学习和半监督学习技术领域，具体涉及一种适用于无标签不平衡数据流的在线主动学习方法。

背景技术

近年来，人工智能及相关产业正迅速发展壮大，成为学术界、工业界以及世界各国政府关注的焦点。最近，国务院发布了《新一代人工智能发展规划》，突出了人工智能研究和产业的国家战略地位。在互联网行业，在线学习技术得到了飞速发展，并在多个应用领域取得了长足进展。然而，现有在线学习技术尚存在诸多挑战。首先，原始流数据是无标签的，并且数据的标注代价往往非常高昂。如何在标注预算受限的情况下，选择最具判别力的数据进行标注，并训练一个性能良好的学习器是在线学习及其工业应用的重要问题。其次，大量实际任务场景中，数据的类别往往是不平衡的，即正类数据远远少于负类数据。如何解决样本的类别不平衡问题也是工业应用亟待解决的关键问题。

发明内容

有鉴于此，为解决上述现有技术中的问题，本发明提供了一种适用于无标签不平衡数据流的在线主动学习方法，针对不平衡数据提出非对称访问策略，动态地决定需要标注标签的样本；为有效更新模型，该方法进一步提出非对称更新策略，并利用样本的二阶信息高效地更新模型；同时对实际分类应用中所存在的标注数据稀疏、样本不平衡、流数据等问题具有较好的解决能力。

为实现上述目的，本发明的技术方案如下。

一种适用于无标签不平衡数据流的在线主动学习方法，包括以下步骤：

步骤1、无标签数据流时序地输入线性分类器中进行预测，其中数据流的类别具有高度不平衡问题，通常设定正类样本为类别稀少样本；

步骤2、根据提出的非对称访问策略，线性分类器针对无标签不平衡数据，时序地决定需要被标注标签的样本；

步骤3、根据提出的非对称更新策略，线性分类器利用错误预测的标注数据更新线性分类器，并利用样本的二阶信息提高学习效率。

进一步地，所述步骤1中，所述无标签数据流可表示为其中代表样本的特征数量为d，T表示无标签样本的总数。可标注标签的样本预算为B个，标签的类别为y_t∈{-1，+1}，则正类样本y_t＝+1的数量远远少于负类样本y_t＝-1，所述线性分类器的具体使用方法为：

步骤11、所述线性分类器表示为其满足多变量高斯分布其中μ表示线性分类器w的均值，而Σ表示线性分类器w的方差；

步骤12、所述线性分类器的分类预测表示为其中sign(·)表示当则否则

步骤13、所述线性分类器的预测结果表示为：若则线性分类器分类正确，否则线性分类器的分类错误。

进一步地，所述步骤2中非对称访问策略的步骤如下：

步骤21、基于样本的二阶信息Σ(即线性分类器的方差)，计算线性分类器对当前样本的置信度；

步骤22、基于置信度，计算当前样本的非对称访问参数；