[发明专利]一种直推式零次学习的未见类图片分类方法、设备及介质有效
| 申请号: | 202310205176.X | 申请日: | 2023-03-06 |
| 公开(公告)号: | CN116051909B | 公开(公告)日: | 2023-06-16 |
| 发明(设计)人: | 何向南;王志才;郝艳宾;王硕 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06N3/0455;G06N3/0475;G06N3/084;G06N3/08 |
| 代理公司: | 安徽省合肥新安专利代理有限责任公司 34101 | 代理人: | 陆丽莉;何梅生 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 直推式零次 学习 未见类 图片 分类 方法 设备 介质 | ||
1.一种直推式零次学习的未见类图片分类方法,其特征在于,是按照如下步骤进行:
步骤1、构建图像-多语言字幕数据集D = {Vs, Ys, As, Vu, Au};其中,Vs已见类视觉特征集合,Ys表示所述已见类视觉特征集Vs的标签集合,令ns代表已见类视觉特征集合Vs的样本数目,As代表已见类视觉特征集Vs的已见类标签集合Ys相对应的已见类语义描述向量集合,Ns代表已见类标签集合Ys的种类数目;Vu表示未见类图像特征集,Au表示未见类图像特征集Vu的未见类标签集合相对应的未见类语义描述向量集合,令nu代表未见类标签集合Ys的样本数目,令Nu代表未见类标签集合的种类数目;
步骤2、构建基于多层感知机网络的双向式分布对齐方式模型,包括,视觉编码网络E,视觉生成网络G,回归器R,非条件式属性判别器Da,条件式视觉判别器D和非条件式视觉判别器Du;
步骤2.1、构建由回归器R和非条件式属性判别器Da组成的视觉-语义对齐模型,并用于实现对视觉特征的语义信息预测;
步骤2.2、构建由视觉编码网络E,视觉生成网络G,回归器R,条件式视觉判别器D和非条件式视觉判别器Du组成的语义-视觉对齐模型,并用于实现对语义特征的视觉特征解析生成;
步骤3、基于图像-多语言字幕数据集D,利用AdamW优化器对所述双向式分布对齐方式模型进行训练,并计算两个总体训练损失函数Loss1和Loss2以更新模型参数,直到Loss1和Loss2收敛为止,从而得到训练好的双向式分布对齐方式模型;
步骤4、获取另一未见类的标签数据集,并与未见类语义描述向量集合Au一起输入训练好的视觉生成网络G中,以生成一定量的合成数据,从而得到带标签的合成未见类数据;
步骤5、基于训练分类器f,并利用训练好的分类器f对未见类图像特征集Vu分配伪标签,实现对未见类视觉特征的分类。
2.根据权利要求1所述的直推式零次学习的未见类图片分类方法,其特征在于,所述步骤2.1包括:
步骤2.1.1、从已见类视觉特征集合Vs中随机采样得到一个已见类图像特征vs输入回归器R中,并经过全连接层的映射后得到输出已见类图像特征表示R(vs),将vs对应标签ys的语义描述as作为监督信号,从而利用式(1)构建已见类监督损失函数:
(1)
式(1)中,E表示期望;
步骤2.1.2、基于采样分布从未见类语义向量集合Au中采样得到一个未见类语义描述向量au并输入回归器R中进行处理,从而得到输出伪未见类语义向量;y表示标签自变量;对au和进行球面插值计算,得到插值后的插值未见类语义向量,且,其中,表示插值分布;
将au,和输入所述非条件式属性判别器Da中进行处理,并得到真实未见类语义判别分数表示Da(au),伪未见类语义判别分数表示和插值未见类语义判别分数表示,从而利用式(2)构建语义非条件式对抗式训练损失函数:
(2)
步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss1:
(3)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310205176.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种药房药品仓储信息智能管理系统
- 下一篇:无顶盖单体电池的复合极柱装配方法





