[发明专利]基于少量标注样本的增量学习方法及系统在审
申请号: | 202010840523.2 | 申请日: | 2020-08-20 |
公开(公告)号: | CN112132179A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 卢记仓;周刚;兰明敬;张伟;陈静;吴建萍 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 少量 标注 样本 增量 学习方法 系统 | ||
本发明属于大数据智能分析技术领域,特别涉及一种基于少量标注样本的增量学习方法及系统,收集样本数据;对少量已标注样本扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型;基于网络预训练模型,对大量未标注样本进行预测分类,构建增量学习候选数据集;将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集,对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;利用校准学习后预训练模型对未标注数据进行预测分类,通过设置循环迭代条件来判定返回重新执行。本发明在仅有少量标注样本情况下通过增量学习得到用于分类识别的可靠样本数据,提升分类识别性能和准确率。
技术领域
本发明属于大数据智能分析技术领域,特别涉及一种基于少量标注样本的增量学习方法及系统。
背景技术
IDC在《数据时代2025》白皮书中指出,2025年全球数据量将达到163ZB,且其中约20%将会是性命攸关的数据,约10%会达到超级关键的程度。数据大爆炸促使信息时代向数据时代的转变,诱发了科学研究第四范式——数据密集型科学研究的产生,但也带来了新的问题。如何从多源异构、种类和模态繁多的大数据中挖掘高价值信息和知识早已超出传统人工手段的能力范围,人工智能技术尤其是深度学习技术的发展为大数据挖掘分析和预测研究等提供了一种可能的方法。目前以有监督深度学习为代表的算法往往需要大量标注样本作为基础支撑,然而,相对于海量异构大数据,由于应用场景、隐私、安全等原因,大规模高质量的标注数据往往极为缺乏,限制了此类人工智能算法尤其是深度学习算法的性能发挥与应用。标注样本缺乏主要表现在两个方面:一是类别不平衡情况下的标注样本缺乏,主要表现为多类样本中某一类或几类样本的标注数量或规模远远大于另外一类或几类样本的标注数量或规模,从而使得算法或模型在不同类别样本的学习中产生偏见;二是类别平衡条件下的标注样本缺乏,主要表现为各类样本的标注数量或规模相差不大。近年来,深度学习技术的飞速发展使得上述问题表现更为突出。
标注样本缺乏问题受到了研究者的广泛关注,从分析场景来看,包括少量样本学习(Small data、Few-shot Learning)、1样本学习(One-shot Learning)、零样本学习(Zero-shot Learning)等。针对上述问题,已有的解决策略主要包括:新样本标注、数据增强以及基于少量标注样本的新算法研究等,大多数方法通常会尝试结合多种策略进行研究。针对关注类别平衡条件下标注样本缺乏问题的研究,一种有效解决方法就是半监督学习,起源于20世纪90年代。简单来看,已有研究大致可认为从两个角度展开:一是借助外界相关知识,研究设计基于少量已知标注样本的半监督学习方法;二是不借助外界相关知识,主要通过研究设计新的模型架构或改进已有模型的学习策略,进而给出新的学习方法。上述研究虽然在一定程度上能够改善少量标注样本情况下的分类识别性能,但在方法的适用性以及准确率上都有待进一步提升。
发明内容
为此,本发明提供一种基于少量标注样本的增量学习方法及系统,在仅有很少量标注样本情况下能够通过增量学习得到用于分类识别处理的可靠样本数据,以提升分类识别性能和准确率。
按照本发明所提供的设计方案,一种基于少量标注样本的增量学习方法,包含如下内容:
收集样本数据,包含:少量已标注样本和大量未标注样本;
对少量已标注样本进行扩充增强,获得可靠标签数据集,利用该可靠标签数据集对网络进行学习获得预训练模型,调整模型收敛参数和配置;基于学习后的网络预训练模型,对大量未标注样本进行预测分类,依据分类结果构建增量学习候选数据集;
将可靠标签数据集和增量学习候选数据集组合得到增量学习数据集;利用该增量学习数据集对网络预训练模型进行增量学习,并利用可靠标签数据集对增量学习所得模型进行校准学习;
利用校准学习后的所得模型对未标注数据进行预测分类,通过设置是否达到预设期望的循环迭代条件来判定是否返回重新执行构建增量学习候选数据集及增量学习和校准学习步骤内容。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学,未经中国人民解放军战略支援部队信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010840523.2/2.html,转载请声明来源钻瓜专利网。