[发明专利]跨媒体检索模型的训练方法、跨媒体检索方法及其设备有效
申请号: | 202110797175.X | 申请日: | 2021-07-14 |
公开(公告)号: | CN113254678B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 杜军平;姜阳;薛哲;徐欣 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/432 | 分类号: | G06F16/432;G06F16/48;G06N3/04 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 秦景芳 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 媒体 检索 模型 训练 方法 及其 设备 | ||
本发明提供了一种跨媒体检索模型的训练方法、跨媒体检索方法及其设备,其中,该训练方法包括获取跨媒体数据集,每条数据包括图像、文本、时间、作者及语义标签;获取每条数据的语义标签向量及各部分的特征向量;计算标签相似度,得到相似度矩阵;由图像、时间及作者特征向量得到第一模态数据,由文本、时间及作者特征向量得到第二模态数据;将两模态数据分别输入至特征映射网络,得到第一特征映射向量和第二特征映射向量;计算两特征映射向量的相似度,得到相似度矩阵;计算两个相似度矩阵的差异值,将两个特征映射向量输入至模态判别网络,得到对抗损失函数的值,优化网络参数,得到跨媒体检索模型。通过上述方案能准确进行语义关联表达。
技术领域
本发明涉及计算机技术领域,尤其涉及一种跨媒体检索模型的训练方法、跨媒体检索方法及其设备。
背景技术
信息时代下,各种各样的数据及信息充斥着生活的方方面面,其中科技资讯数据是学者了解目前科技动向,思考未来发展前景较为重要的信息来源。越来越多的学者对科技资讯数据资源的检索不再满足于单一模态的检索方式,能够更加智能化地得到跨媒体检索结果给搜索引擎提出了更高的要求。如何跨越不同模态间的语义鸿沟是亟待解决的关键问题。跨媒体科技资讯具有数据量大,赘余信息少,且信息会随着时间热点变化的特点。
跨媒体检索难点在于如何将异构模态映射到一个公共子空间。目前共同空间学习法一共有两种,分别是传统直接映射方法和深度学习方法。传统直接映射方法结构简单,无法深层次理解高维度的跨模态语义;而随着深度网络模型的发展,使用多层卷积神经网络成为特征提取和公共空间映射的热点,例如,在深度学习的基础之上有效的结合关联分析方法,可以形成深度典型关联分析方法(DCCA)。
然而,对于跨媒体科技资讯数据,仍然存在着语义理解不充分、子空间映射效果不佳等问题。
对抗性学习是通过两个过程之间的相互作用实现的,第一个过程是特征投影,它试图在公共子空间中生成模态不变的表征,而另一个过程是模态分类器,它试图根据生成的表征区分不同的模态。通过利用该两个过程,能够将多媒体数据投影到公共子空间中,可以更好地保留多媒体数据的底层跨模态语义结构。
GANs(生成式对抗网络)是一种通过对抗性学习生成模型的深度学习方法,通过神经网络学习生成与目标分布接近的分布。GANs由生成器与判别器组成,生成器是尽可能的通过学习样本数据生成真实的数据分布;判别器是区分数据来源是真实的还是生成器生成的数据,并通过判别结果影响生成器学习。在训练过程中,当判别器无法区分数据是真实数据还是由生成器生成的数据时,认为生成器达到最佳效果。跨模态检索研究的核心是学习一个公共子空间,在这个子空间中不同模态的项可以直接相互比较。对抗性跨媒体检索(ACMR)方法将对抗学习思想运用于跨媒体检索中,其通过特征映射器和模态分类器两个过程之间的相互作用,寻求能够将两个模态映射到一个公共子空间。其中,特征映射器尝试在公共子空间内形成模态的不变表示,用以混淆模态分类器。而模态分类器由标签预测和三元组约束组成,能够尽量减少不同模态下相同语义的向量距离。基于对抗学习的无监督跨模态检索方法(UCAL),针对标注较少的跨媒体数据有较好的效果。通过生成对抗网络GANs得到的跨模态结构来模拟不同模态数据的联合分布,同时提出具有权值共享约束的跨模态卷积自编码器,形成生成模型。
然而,通过使用三元组约束仅仅是通过二元地判断文本数据和图像数据是否相关,在实际的跨媒体科技资讯数据中,跨模态语义相关性并不能仅仅通过简单地0和1来定义,因此难以准确进行语义关联表达。
发明内容
有鉴于此,本发明提供了一种跨媒体检索模型的训练方法、跨媒体检索方法及其设备,以准确进行语义关联表达,从而提高跨媒体检索准确性。
为了达到上述目的,本发明采用以下方案实现:
根据本发明实施例的一个方面,提供了一种跨媒体检索模型的训练方法,包括:
获取跨媒体数据集,其中,每条跨媒体数据包括图像数据、文本数据、时间数据、作者数据及语义标签数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797175.X/2.html,转载请声明来源钻瓜专利网。