[发明专利]样本特征空间增强方法及装置在审
申请号: | 202111165666.9 | 申请日: | 2021-09-30 |
公开(公告)号: | CN114281985A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 杨佳伟;姚建华 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126;G06F40/242;G06F40/30;G06K9/62;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 王娟 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 特征 空间 增强 方法 装置 | ||
本公开的实施例提供了一种样本特征空间增强方法和小样本分类器训练方法、以及相应的装置、设备和存储介质。本公开的实施例的方法针对无标签数据集,通过无监督预训练和无监督聚类确定特征编码器和遗产字典,并利用特征编码器和遗产字典基于少量新类样本获得更丰富的样本特征,以增强样本的特征空间。通过将本公开的实施例的方法应用于小样本分类,能够将基类样本的语义变化迁移至新类样本,从而基于少量新类样本生成富有语义变化的更多可靠的新类样本,以提升小样本分类器的分类能力。此外,本公开的实施例中的特征编码器和遗产字典的确定都无需标签信息,因此本公开的实施例的方法也可以适用于其他的无标签或标签紧缺的任务。
技术领域
本公开涉及人工智能及计算机视觉领域,更具体地,涉及一种样本特征空间增强方法和小样本分类器训练方法、以及相应的装置、设备和存储介质。
背景技术
近年来,在人类的快速学习能力的启发下,研究人员希望模型在学习了一定类别的大量数据后,在面对新的类别时只需要少量样本就能快速学习,因此小样本分类(Few-Shot Classification)获得了越来越多的研究人员的关注,其已成为计算机视觉和机器学习等多个研究领域的研究热点。
目前,基于深度学习的小样本分类已经取得了一定研究成果,但由于样本量较少大大增加了模型学习的难度,使得小样本分类任务仍面临着很大挑战。小样本分类技术通常基于对有标签的大数据集进行有监督预训练,其成功依赖于大量有标签的样本,但是在实际场景中,大规模的有标签数据集通常难以获取,而无标签数据集通常更为常见。此外,预训练数据集本身往往存在可用于优化小样本分类的大量丰富的知识(诸如预训练数据集中的数据分布等),但现有的小样本分类技术只通过利用预训练学习所得到的模型权重而迁移了关于预训练数据集中的基类的部分知识,而并没有对预训练数据集的知识进行充分利用。
因此,需要一种有效的小样本分类方法,使得可以更充分地利用无标签数据集并以更低的标注成本来实现更优的小样本分类。
发明内容
为了解决上述问题,本公开利用通过无监督预训练和无监督聚类确定的特征编码器和遗产字典,基于少量样本获得更丰富的样本特征,增强样本的特征空间,从而提升了后续小样本分类器的分类能力,且大大降低对标签的标注成本。
本公开的实施例提供了一种样本特征空间增强方法和小样本分类器训练方法、以及相应的装置、设备和存储介质。
本公开的实施例提供了一种样本特征空间增强方法,包括:获取第一数量的样本;利用经预训练的特征编码器,基于所述第一数量的样本确定第一数量的特征向量,所述第一数量的特征向量与所述第一数量的样本一一对应,所述经预训练的特征编码器是基于预训练样本集训练的;以及基于所述第一数量的特征向量,利用遗产字典确定第二数量的增强特征向量,所述遗产字典包括多个特征向量聚类的特征信息,所述多个特征向量聚类中的特征向量是利用所述经预训练的特征编码器基于所述预训练样本集预先生成的;其中,所述第一数量的样本的特征空间包括所述第一数量的特征向量和所述第二数量的增强特征向量,所述第二数量不小于所述第一数量,其中,所述第一数量的特征向量中的一个特征向量与所述第二数量的增强特征向量中的至少一个特征向量相关联。
根据本公开的实施例,所述方法还包括:利用所述特征编码器确定所述预训练样本集中的每一预训练样本的特征向量;对所述预训练样本集中的所有预训练样本的所有特征向量进行聚类以形成所述多个特征向量聚类;生成所述多个特征向量聚类中的每一特征向量聚类的特征信息;以及利用所述多个特征向量聚类中的每一特征向量聚类的特征信息来生成所述遗产字典。
根据本公开的实施例,对于所述多个特征向量聚类中的每一特征向量聚类,所述特征向量聚类的特征信息包括所述特征向量聚类的统计信息组,所述统计信息组包括所述特征向量聚类内的所有特征向量的均值和协方差矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111165666.9/2.html,转载请声明来源钻瓜专利网。