[发明专利]一种基于数据增强的视觉语义嵌入方法及系统在审
申请号: | 202210003468.0 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114298057A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 曹建军;曾志贤;翁年凤;袁震;江春;丁鲲;蒋国权 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/242;G06N5/04;G06N3/04;G06N3/08 |
代理公司: | 江苏瑞途律师事务所 32346 | 代理人: | 计璐 |
地址: | 210007 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 增强 视觉 语义 嵌入 方法 系统 | ||
本发明公开了一种基于数据增强的视觉语义嵌入方法及系统,属于深度学习技术领域。利用第一网络模型对图像进行目标识别选取若干图像区域;利用第二网络模型提取图像区域的细粒度特征,通过微调网络映射得到图像在共同嵌入空间的细粒度表示;进行第一语义图推理并进行统一池化操作;利用第一提取模型提取文本上下文相关的词向量表示;利用第二提取模型进行微调映射至共同嵌入空间,得到文本在共同嵌入空间中的词向量表示;进行第二语义图推理并进行统一池化操作;对所述第一池化结果和第二池化结果进行语义对齐,并且在模型的训练中对数据进行增强。本发明能够很好的构建模态内语义关联和在共同嵌入子空间中生成统一表征。
技术领域
本发明属于深度学习技术领域,具体涉及一种基于数据增强的视觉语义嵌入方法及系统。
背景技术
图像-文本跨模态实体分辨的目的是查找具有相同语义的图像-文本对。然而,由于图像和文本是属于不同模态的数据,这给图像和文本的语义对齐带来了巨大的挑战
图像文本跨模态实体分辨方法可以分为传统方法和深度学习方法。传统方法一般采用统计分析的方法,通过统计分析不同模态信息的分布情况来学习跨模态数据的映射矩阵,实现语义对齐。其中,最具代表性的方法是典型性相关分析(Canonical CorrelationAnalysis,CCA)。研究者们提出多种的基于CCA的方法,比如KCCA、Multi-view CCA等。
由于深度神经网络强大的非线性学习能力,目前已经成为各个领域研究的热点课题。在基于深度学习的图像-文本跨模态实体分辨领域,主要可以分为采用视觉语义嵌入的方法和采用跨模态交叉注意力机制的方法。然而,基于跨模态交叉注意力的方法需要增加跨模态计算,这增加了模型的计算量,降低了模型的应用价值。因此,在实际工程应用中,一般都只能采取视觉语义嵌入的方法完成图像-文本跨模态实体分辨任务。现有技术证实,由于图像和文本数据在高层语义分布上是同构的,基于视觉语义嵌入的方法不仅能够实现与基于交叉注意力的方法相近的性能,而且具有较低的计算复杂度。
然而,现有的视觉语义嵌入方法存在不能很好的构建模态内语义关联或生成统一表征的问题。现有技术中,虽然设计了极好的池化策略用于生成跨模态数据的全局嵌入表示,实现较好的性能,但是并未构建模态内语义关联,导致细粒度特征语义增强缺失的问题。此外,现有技术虽然构建了模态内语义关联,但是采用Bi-GRU网络或者是一般的特征融合网络对细粒度特征进行特征聚合,并不能在共同嵌入空间中生成较好的统一表征。因此,有必要解决现有视觉语义嵌入模型不能较好构建模态内语义关联和生成统一表征的问题。
此外,在目前的视觉语义嵌入中采用的视觉语义嵌入模型,因为受数据样本限制等等因素,导致视觉语义嵌入模型的泛化能力较差,使得现有的视觉语义嵌入方法难以很好的构建模态内语义关联或生成统一表征。因此,有必要提出一种适用于视觉语义嵌入的数据增强方法,提高模型的泛化能力。
发明内容
技术问题:针对现有的视觉语义嵌入方法难以很好的构建模态内语义关联或生成统一表征的问题,本发明提供一种基于数据增强的视觉语义嵌入方法及系统,通过重新构建视觉语义嵌入的全过程,并通过数据增强提高模型的泛化能力,使得本发明能够很好地构建模态内语义关联和生成统一表征。
技术方案:第一方面,本发明提供一种基于数据增强的视觉语义嵌入方法,包括:
接收图像数据和文本数据;
利用第一网络模型对图像进行目标识别,并根据置信度选取若干图像区域;利用第二网络模型提取每个所述图像区域的细粒度特征,通过微调网络将所述图像细粒度特征映射到共同嵌入空间,得到图像在共同嵌入空间的细粒度表示;
根据所述细粒度表示进行第一语义图推理,获得第一推理结果;
对第一推理结果进行统一池化操作,得到第一池化结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210003468.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置