[发明专利]跨媒体检索模型的训练方法、跨媒体检索方法及其设备有效
申请号: | 202110797175.X | 申请日: | 2021-07-14 |
公开(公告)号: | CN113254678B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 杜军平;姜阳;薛哲;徐欣 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/432 | 分类号: | G06F16/432;G06F16/48;G06N3/04 |
代理公司: | 北京金咨知识产权代理有限公司 11612 | 代理人: | 秦景芳 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 媒体 检索 模型 训练 方法 及其 设备 | ||
1.一种跨媒体检索模型的训练方法,其特征在于,包括:
获取跨媒体数据集,其中,每条跨媒体数据包括图像数据、文本数据、时间数据、作者数据及语义标签数据;
获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量,并获取相应跨媒体数据中语义标签数据的语义标签向量;
计算跨媒体数据集中两两跨媒体数据的语义标签向量的第一相似度,得到跨媒体数据集对应的第一相似度矩阵;
提取各条跨媒体数据的图像特征向量、时间特征向量及作者特征向量,得到相应跨媒体数据的第一模态数据,提取各条跨媒体数据的文本特征向量、时间特征向量及作者特征向量,得到相应跨媒体数据的第二模态数据;
将各条跨媒体数据的第一模态数据和第二模态数据分别输入至初始特征映射网络,计算得到相应跨媒体数据的第一模态数据对应的第一特征映射向量和第二模态数据对应的第二特征映射向量;
计算跨媒体数据集中一条跨媒体数据的第一特征映射向量和另一条跨媒体数据的第二特征映射向量的第二相似度,得到跨媒体数据集对应的第二相似度矩阵;
计算所述第一相似度矩阵和第二相似度矩阵的差异值,作为语义偏差损失函数的值;
将跨媒体数据集中各跨媒体数据的第一特征映射向量和第二特征映射向量输入至初始模态判别网络,计算得到对抗损失函数的值;
利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值,并利用总损失函数的值优化初始跨媒体检索网络中的参数,以训练得到对抗性的跨媒体检索网络并利用其得到跨媒体检索模型;
计算所述第一相似度矩阵和第二相似度矩阵的差异值,包括:
利用计算
2.如权利要求1所述的跨媒体检索模型的训练方法,其特征在于,获取各条跨媒体数据中图像数据的图像特征向量、文本数据的文本特征向量、时间数据的时间特征向量及作者数据的作者特征向量,包括:
利用VGG16神经网络提取跨媒体数据中图像数据,得到相应的图像数据的图像特征向量;和/或,
利用LDA主题模型提取跨媒体数据中的文本数据,得到相应的文本数据的文本特征向量;和/或,
利用one-hot模型跨媒体数据中的时间数据,得到相应的时间数据的时间特征向量;和/或,
利用one-hot模型跨媒体数据中的作者数据,得到相应的作者数据的作者特征向量。
3.如权利要求1所述的跨媒体检索模型的训练方法,其特征在于,
所述方法,还包括:
计算所述初始特征映射网络的语义标签预测损失函数的值和归一化损失函数的值;
利用语义偏差损失函数的值和对抗损失函数的值计算得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值,包括:
将语义偏差损失函数的值、语义标签预测损失函数的值及归一化损失函数的值加权求和得到嵌入损失函数的值;
利用嵌入损失函数的值减去对抗损失函数的值,得到包含所述初始特征映射网络和所述初始模态判别网络的初始跨媒体检索网络的总损失函数的值。
4.如权利要求3所述的跨媒体检索模型的训练方法,其特征在于,所述归一化损失函数为第一模态数据和第二模态数据中相同模态数据中最小化类内距离、不同模态数据间最小化类中心距离、以及不同模态数据间最小化模态类中心与具有相同语义的另一个模态数据之间的距离的加权和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110797175.X/1.html,转载请声明来源钻瓜专利网。