[发明专利]一种基于截断重要性采样的模型与样本双重主动选择方法在审
申请号: | 202110797844.3 | 申请日: | 2021-07-14 |
公开(公告)号: | CN113642701A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 唐英鹏;黄圣君 | 申请(专利权)人: | 南京市九一数据技术有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N5/00 |
代理公司: | 北京华沛德权律师事务所 11302 | 代理人: | 马苗苗 |
地址: | 211100 江苏省南京市铺岗街5*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 截断 重要性 采样 模型 样本 双重 主动 选择 方法 | ||
本发明面向自动标注领域公开了一种基于截断重要性采样的模型与样本双重主动选择方法。主动学习技术往往被用于降低训练高性能模型所需要的数据量。然而现有方法往往假设目标模型作为先验给定,然而这一条件在实际任务中难以满足。本发明提出一种同时选出高效用模型与样本算法,一方面利用截断重要性采样技术缓解主动样本选择带来的数据偏差问题,从而得到更准确的模型搜索结果;另一方面主动查询高信息量且具有判别性的样本,从而快速辨别出适于当前任务的模型,并帮助其收敛。方法更符合实际应用场景,能够缓解目标模型无法事先获得导致主动学习获得次优解的问题。
技术领域
本发明属于自动标注技术领域,尤其是涉及一种基于截断重要性采样的模型与样本双重主动选择方法。
背景技术
机器学习是推进国计民生各领域智能化的关键技术。大规模标注数据是提升主流机器学习模型性能的主要手段之一。然而数据标注需要人工参与,耗时耗力,且要求相应的专业知识,导致代价高昂。这一问题在深度学习时代更为突出。目前标注代价已成为制约机器学习技术实际应用的一个重要瓶颈。主动标注技术往往被广泛应用以降低标注代价。它通过主动选择最有价值的样本向专家查询标记,从而显著降低模型提升性能所需要的样本数。现有主动学习方法通常依赖于特定的目标模型来评估样本的潜在价值。然而目标模型的先验在实际任务中难以获得,这是由于对任务的知识缺乏导致。目前常用的做法是采用常用的模型作为目标模型挑选样本,例如[HOI,Steven,et al.Semi-Supervised SVMBatch Mode Active Learning for Image Retrieval.IEEE Conference on ComputerVision and Pattern Recognition(2008).]以及[Gu,Bin,et al.EfficientActiveLearning by Querying Discriminative and Representative Samples and FullyExploiting Unlabeled Data.IEEE Transactions on Neural Networks and LearningSystems(2020).]等工作。然而这种简单的做法存在误用模型的风险,将导致模型性能即使在完美地选择了高效用样本标注的前提下,仍然无法达到最优值。现有的部分解决方案尝试独立地交替进行模型选择与样本选择。ALMS方法[Ali,Alnur,Rich Caruana,and AshishKapoor.Active learning with model selection.Proceedings of the AAAIconference on artificial intelligence.(2014).]在每轮迭代中同时搜索模型与选择样本查询。该方法模型选择策略为遍历搜素所有候选模型,样本选择策略会在随机选择与主动选择之间,根据一定的算法选择一种。Active-iNAS方法[Geifman,Yonatan,and RanEl-Yaniv.Deep Active Learning with a Neural Architecture Search.Advances inNeural Information Processing Systems 32(2019).]也具有类似的框架。该方法的模型搜索策略为从简单模型渐渐过度到困难模型,样本选择策略为常用主动学习方法。然而,这些方法没有考虑到以下实际问题,而无法很好地解决这一问题。这主要包括三点:1)主动样本选择导致标记数据分布存在偏差,直接使用现有的模型选择方法无法获得期望的效果;2)目标模型在样本选择过程中不断变化,直接使用现有的主动学习方法将产生次优解;3)模型选择通常时间复杂度极高,无法直接用于实际主动标注任务。综上所述,现有技术手段难以满足实际任务场景的需求,从而无法完全发挥主动标注技术的潜能。
发明内容
为了克服目标模型的先验在实际任务中难以获得,无法完全发挥主动学习技术性能的问题,本发明提供一种基于截断重要性采样的模型与样本双重主动选择方法。
为实现上述目的,本发明采用的技术方案为:
一种基于截断重要性采样的模型与样本双重主动选择方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京市九一数据技术有限公司,未经南京市九一数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797844.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双驱动行走装置
- 下一篇:一种大型旋转机械座圈间隙动态测试系统