[发明专利]一种直推式零次学习的未见类图片分类方法、设备及介质有效

申请号：	202310205176.X	申请日：	2023-03-06
公开（公告）号：	CN116051909B	公开（公告）日：	2023-06-16
发明（设计）人：	何向南;王志才;郝艳宾;王硕	申请（专利权）人：	中国科学技术大学
主分类号：	G06V10/764	分类号：	G06V10/764;G06V10/82;G06N3/0455;G06N3/0475;G06N3/084;G06N3/08
代理公司：	安徽省合肥新安专利代理有限责任公司 34101	代理人：	陆丽莉;何梅生
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种直推式零次学习未见类图片分类方法设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种直推式零次学习的未见类图片分类方法，其特征在于，是按照如下步骤进行：

步骤1、构建图像-多语言字幕数据集D = {V^s, Y^s, A^s, V^u, A^u}；其中，V^s已见类视觉特征集合，Y^s表示所述已见类视觉特征集V^s的标签集合，令n^s代表已见类视觉特征集合V^s的样本数目，A^s代表已见类视觉特征集V^s的已见类标签集合Y^s相对应的已见类语义描述向量集合，N^s代表已见类标签集合Y^s的种类数目；V^u表示未见类图像特征集，A^u表示未见类图像特征集V^u的未见类标签集合相对应的未见类语义描述向量集合，令n^u代表未见类标签集合Y^s的样本数目，令N^u代表未见类标签集合的种类数目；

步骤2、构建基于多层感知机网络的双向式分布对齐方式模型，包括，视觉编码网络E，视觉生成网络G，回归器R，非条件式属性判别器D^a，条件式视觉判别器D和非条件式视觉判别器D^u；

步骤2.1、构建由回归器R和非条件式属性判别器D^a组成的视觉-语义对齐模型，并用于实现对视觉特征的语义信息预测；

步骤2.2、构建由视觉编码网络E，视觉生成网络G，回归器R，条件式视觉判别器D和非条件式视觉判别器D^u组成的语义-视觉对齐模型，并用于实现对语义特征的视觉特征解析生成；

步骤3、基于图像-多语言字幕数据集D，利用AdamW优化器对所述双向式分布对齐方式模型进行训练，并计算两个总体训练损失函数Loss₁和Loss₂以更新模型参数，直到Loss₁和Loss₂收敛为止，从而得到训练好的双向式分布对齐方式模型；

步骤4、获取另一未见类的标签数据集，并与未见类语义描述向量集合A^u一起输入训练好的视觉生成网络G中，以生成一定量的合成数据，从而得到带标签的合成未见类数据；

步骤5、基于训练分类器f，并利用训练好的分类器f对未见类图像特征集V^u分配伪标签，实现对未见类视觉特征的分类。

2.根据权利要求1所述的直推式零次学习的未见类图片分类方法，其特征在于，所述步骤2.1包括：

步骤2.1.1、从已见类视觉特征集合V^s中随机采样得到一个已见类图像特征v^s输入回归器R中，并经过全连接层的映射后得到输出已见类图像特征表示R(v^s)，将v^s对应标签y^s的语义描述a^s作为监督信号，从而利用式(1)构建已见类监督损失函数：

(1)

式(1)中，E表示期望；

步骤2.1.2、基于采样分布从未见类语义向量集合A^u中采样得到一个未见类语义描述向量a^u并输入回归器R中进行处理，从而得到输出伪未见类语义向量；y表示标签自变量；对a^u和进行球面插值计算，得到插值后的插值未见类语义向量，且，其中，表示插值分布；

将a^u，和输入所述非条件式属性判别器D^a中进行处理，并得到真实未见类语义判别分数表示D^a(a^u)，伪未见类语义判别分数表示和插值未见类语义判别分数表示，从而利用式(2)构建语义非条件式对抗式训练损失函数：

(2)

步骤2.1.3、利用式(3)构建所述视觉-语义对齐模型的总体训练损失函数Loss₁：

(3)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学技术大学，未经中国科学技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310205176.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种直推式零次学习的未见类图片分类方法、设备及介质有效

专利文献下载