[发明专利]基于生成对抗网络的细粒度跨媒体检索方法在审
申请号: | 202110133925.3 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112800249A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 唐振民;洪瑾;姚亚洲 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/435 | 分类号: | G06F16/435;G06F16/438;G06F16/483;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210014 江苏省南京*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 细粒度 媒体 检索 方法 | ||
1.一种基于生成对抗网络的细粒度跨媒体检索方法,其特征在于:包括以下步骤:
(1)对视频数据进行噪声帧滤除操作;
(2)构造双通道的特征提取网络,使用基于自注意力机制的文本特征提取器提取文本数据的特征,使用深度神经网络提取其他媒体数据的特征;
(3)构造公共特征空间学习模块和媒体判别器,使生成器和判别器其能够进行对抗训练,最终得到公共特征表示;
(4)利用相似性度量工具计算每种媒体数据之间的特征相似度,从而对其进行排序输出。
2.根据权利要求1所述的基于生成对抗网络的细粒度跨媒体检索方法,其特征在于:步骤(1)中,所述的噪声帧滤除操作方法采用基于特征空间聚类的视频帧滤除方法,具体过程为:
从每个视频中以相同间隔截取N帧组成原始关键帧,25≤N≤50,然后使用深度神经网络作为特征提取器提取原始关键帧的特征,将其表示为:
fv={m1,m2,...,mN}
式中,v表示视频数据集中的视频总数,mi表示第i帧图像的特征;
使用ζ2范数计算每幅视频帧的特征与其他所有帧的特征之间的距离之和,表示为:
式中,dj表示其他所有视频帧到mj的距离之和;
对d1、d2、…、dN进行排序,假设dk(k∈1,2,...,N)最小,则将第k帧定为中心帧;计算dk的平均值ak:
令λak为阈值T,λ取值为0.001-0.01;判断每一帧到中心帧的距离,如果当前帧到中心帧的距离大于T,则将丢弃当前帧,否则它将保留为有效帧。
3.根据权利要求1所述的基于生成对抗网络的细粒度跨媒体检索方法,其特征在于:步骤(2)中,所述的基于自注意力机制的文本特征的提取方法,具体过程为:
给定一个含有n个单词的句子,n的大小视文本长度而定,则该句子的词嵌入矩阵E表示为:
式中,ei表示该句子的第i个单词的词嵌入表示向量;
采用一个双向的LSTM网络(长短期记忆网络)来获取一个句子中的相邻单词之间的依赖关系,则t时刻隐藏层的输出数据ht,表示为:E=(e1,e2,...,en)
ht=LSTM(et,ht-1,ht+1)
H是双向LSTM的所有的隐藏层输出结果的集合,表示为:
H=(h1,h2,...,hn)
采用线性叠加来降低特征维度。维度降低后用H′表示;
自注意机制将整个LSTM隐藏状态H′作为输入,然后输出权重矩阵M,表示为:
M=s(W1(g(W2H′T)))
式中,W1和W2表示两个全连接层的参数矩阵,s(·)和g(·)表示激活函数;
将LSTM的隐藏状态H′与权重矩阵M相乘可以得到嵌入式文本矩阵L,将其表示为:
L=H′TM
L为经由文本处理通道得到的文本数据的特征,之后再经由几个全连接层调整其维度与其他三种媒体的特征一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110133925.3/1.html,转载请声明来源钻瓜专利网。