[发明专利]一种基于深度端对端示例差异化的零样本多标签分类方法有效
| 申请号: | 201811495479.5 | 申请日: | 2018-12-07 |
| 公开(公告)号: | CN109993197B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 冀中;李慧慧;庞彦伟 | 申请(专利权)人: | 天津大学 |
| 主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774 |
| 代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
| 地址: | 300072*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 深度 示例 异化 样本 标签 分类 方法 | ||
一种基于深度端对端示例差异化的零样本多标签分类方法,训练阶段包括:训练多示例特征提取网络;提取训练样本对应的标签特征;视觉特征到标签特征空间的跨模态映射网络训练,用于实现多模态融合,并挖掘标签与标签间、样本与标签间的关联关系;训练样本的标签和测试样本的标签各标签之间的约束模块;训练阶段的最终目标函数的优化。测试阶段直接利用训练阶段所获取的端对端网络实现零样本多标签分类包括:利用多示例特征提取网络提取测试样本多示例特征;提取测试样本对应的标签特征;测试样本多标签分类。本发明能对未标记图像实现多标签图像标注。
技术领域
本发明涉及一种零样本多标签分类方法。特别是涉及一种基于深度端对端示例差异化的零样本多标签分类方法。
背景技术
随着数据信息的爆炸性增长,人们智能地使用数据并从中挖掘提取有效性息的动机也随之增长。机器学习模型建模和解决复杂任务的能力使得这一研究取得很大的进展,原因主要有两个:更强大的计算能力和更多的标记数据。传统单标签图像分类(Single-Label Classification)系统是指对仅包含单个类别的单幅图像进行标注,要想准确识别某类图像,必须根据已知的训练数据集学习一个分类器,然后利用这个分类器对测试图像进行分类,其测试图像所属的类别在训练阶段一定出现过。在实际情况中,训练数据和标注信息往往难以获得,一方面,世界上的事物种类非常多,且在持续增加;另一方面,对于某一类事物,又可以进一步细分为许多子类。由此可见视觉识别系统通常受限于训练样本类别,模型扩展能力受到影响。为解决这一问题,早期的研究提出了利用诸如文本等辅助语义信息对训练期间未见类别实现分类,这类学习方式叫做零样本学习(Zero-Shot Learning),源于人类仅通过描述就能识别新事物的能力。目前零样本学习技术主要用于单标签图像分类任务,而实际应用中,一幅图像不同的区域往往对应若干类别,如何将区域划归为若干类别中的某一种,即多标签图像分类技术,即为零样本多标签图像分类任务,既能满足实际需求,又能解决标签缺失问题。
零样本多标签分类任务同两个子问题相比更具挑战性,具体而言,既面临零样本学习的挑战,如语义鸿沟问题、域偏移问题以及hubness问题;又面临多标签分类任务中的语义爆炸问题;除此之外,多标签零样本图像分类任务既需要考虑已见类别间复杂的语义关系,还需考虑未见类别间的语义联系。例如对于给定多标签观察样本x,包含类别个数为n,传统多标签图像分类将其看作n个独立的单标签分类问题,过程冗余且精度低,如何高效精确地实现类别的标注,关键在于有效地利用图像与类、类与类之间的内在关联,因此零样本多标签分类问题主要解决两个关键问题:(1)样本x视觉表征到对应多标签语义表征间的跨模态映射模型,实现已知类和未知类间的知识迁移、同时建立视觉和语义关联;(2)合理建模类与图像、类与类间相互关系,实现高效准确的多标签分类。
表示学习(Representation Learning)指学习某种特征表示的学习技术的统称,在深度学习领域内,指某一样本x以某种形式进行有效表征的方式,深度学习中三种常见的供计算机使用的三类数据方式为:局部表达、系数表达和分布式表达,典型的表示学习模型有CNN网络有监督特征提取、基于变分自编码和玻尔兹曼机的无监督特征表征以及一些fine-ting半监督学习机制等。深度学习强大建模和知识抽取能力的主要原因之一是对观测样本进行和有效的表达,可见一个有效的表达对简化学习任务、提升学习性能至关重要。表示学习模型有效评估的最直观方式是利用模型所提特征进行分类,如基于CNN进行特征抽取并通过softmax分类进行性能评估。零样本学习中的辅助语义信息的分布式特征表达——词向量法(常用模型Word2Vec和Glove)即为表示学习的有效体现;另一类中间层辅助语义信息——属性特征则属于表示学习中的系数表达方式;基于VGG网络进行视觉特征提取即是典型的表示学习法,样本x的视觉特征表征为RD,表示特征向量为D维。对于多标签图像而言,除对标签的辅助语义信息进行合理表征外,由于多标签图像中目标种类繁多,特征丰富,经典CNN网络的单维度特征表达能力不够,需要更丰富的多通道、多维度的视觉特征表征以及对应的表征学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811495479.5/2.html,转载请声明来源钻瓜专利网。





