[发明专利]一种蒸馏数据的方法、介质及视觉任务处理方法在审
申请号: | 202310526044.7 | 申请日: | 2023-05-10 |
公开(公告)号: | CN116541763A | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 许思杰;张钟毓;张行程 | 申请(专利权)人: | 上海人工智能创新中心 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/22;G06F18/214;G06F18/21;G06N3/09;G06F18/213 |
代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 张瑞莹;李镝的 |
地址: | 200232 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蒸馏 数据 方法 介质 视觉 任务 处理 | ||
本发明公开一种蒸馏数据的方法,其首先从第一数据集、第二数据集中分别采样,得到第一样本数据、第二样本数据,然后通过N次迭代,对第一数据集进行更新。其中初始的第一数据集由第二数据集随机采样得到。每次迭代则首先通过特征提取模块分别提取第一样本数据及第二样本数据的特征,得到第一特征、第二特征,然后计算第一特征与第二特征的差异,并将其作为监督信号进行反向传播,更新第一数据集。该方法基于对比学习的技术实现数据蒸馏,可以对多种标签数据或无标签数据进行蒸馏,得到的蒸馏数据可以应用到包括分类在内的多种视觉任务中。
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种蒸馏数据的方法、介质及视觉任务处理方法。
背景技术
数据蒸馏(Dataset Distillation或Dataset Condensation)任务的目标是将数量为N的大型训练数据集(或称真实数据集)提炼成一组数量为M的合成数据集,其中MN,且期望相同的模型使用合成数据集训练与使用大型数据集训练得到尽可能一致的结果,或者说在测试集中的准确率接近。数据蒸馏的核心是降低数据的冗余性,将相似的多个图像合成进更少的图像,提高图像中的有效信息密度。
现有的数据蒸馏技术都是在分类任务中进行,由于分类任务自带了类别信息,因此现有数据蒸馏技术的技术原理基本相同,都是在分类数据集上利用分类标签,根据类别标签将相同类别图像合成到一张或一簇代表这一类别的合成图像上。可以看出,现有的方法合成数据共用一个类别标签,无需对标签做任何改动。但是这也使得在其他任务的数据集以及无标签数据,如目标检测数据集中每个图像对应的标签各不相同时,会导致合成图像的标签必须是一个包含所有待合成样本标签信息的“综合标签”,这个综合标签如何生成并没有一个很好的解决方案。可见,现有的蒸馏手段难以用于除分类数据集外的其他数据集,并且无法用于除了分类任务外的其他任务。且目前暂时没有可用于分类标签外其他诸如检测、分割等标签数据,或者无标签数据的数据蒸馏方法,更没有将蒸馏数据应用至分类外任务的框架范式。
此外,现有的数据蒸馏技术的合成数据规模较小,通常小于或等于ImageNet1k数据集,即120万张图像。
发明内容
针对现有技术中的部分或全部问题,本发明第一方面提供一种蒸馏数据的方法,包括:
从第一数据集、第二数据集中分别采样一个批次的样本,得到第一样本数据、第二样本数据,其中所述第一数据集由所述第二数据集随机采样的子集初始化得到;以及
通过N次迭代,对所述第一数据集进行更新,其中N为自然数,且每次迭代包括:
通过特征提取模块分别提取所述第一样本数据及第二样本数据的特征,得到第一特征、第二特征;以及
计算所述第一特征与第二特征的差异,并将所述差异作为监督信号进行反向传播,更新第一数据集。
进一步地,所述方法还包括:对所述特征提取模块进行更新。
进一步地,在每次更新第一数据集前,先更新一次所述特征提取模块。
进一步地,更新所述特征提取模块的一次迭代包括:
对所述第二样本数据进行两次不同的数据增强处理,得到正样本对;
将所述正样本对分别输入所述特征提取模块的正样本编码器及负样本编码器,以得到正样本特征向量及负样本特征向量;
计算所述正样本特征向量及负样本特征向量的相似度向量,并计算所述负样本特征向量与预存储的负样本特征向量的相似度矩阵;
计算损失,并反向传播更新所述正样本编码器;以及
将所述负样本特征向量放入负样本特征向量队列中,并将等量的队列末尾的负样本特征向量移出队列,实现队列更新,同时根据正样本编码器的参数按照动量更新方法更新负样本编码器的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海人工智能创新中心,未经上海人工智能创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310526044.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置