[发明专利]基于层次语义结构的跨模态哈希检索方法有效
| 申请号: | 202111140203.7 | 申请日: | 2021-09-28 |
| 公开(公告)号: | CN113806580B | 公开(公告)日: | 2023-10-20 |
| 发明(设计)人: | 王笛;田玉敏;王义峰;张彩平;万波;罗雪梅;赵辉;潘蓉 | 申请(专利权)人: | 西安电子科技大学 |
| 主分类号: | G06F16/583 | 分类号: | G06F16/583;G06F16/55;G06F16/58;G06F40/30;G06N3/06;G06N3/0464;G06N3/08 |
| 代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
| 地址: | 710071*** | 国省代码: | 陕西;61 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 层次 语义 结构 跨模态哈希 检索 方法 | ||
1.一种基于层次语义结构的跨模态哈希检索方法,其特征在于,通过将所有图像文本对标签中每层的所有类别对应的类哈希码扩展为层次语义结构,将层次语义结构直接映射到图像文本对哈希码中;该方法的具体步骤包括如下:
步骤1,建立训练集:
(1a)选取至少500个自然图像数据样本与其对应的文本数据样本组成图像文本对样本集,对每个图像文本对中的图像和文本样本分别从粗粒度到细粒度进行人工分层标注;
(1b)将标注后的每个图像文本对中的图像样本裁剪成224×224像素值的图像;
(1c)利用词袋模型,将标注后的每个图像文本对中的文本样本转化成同样长度的0-1词袋向量;
(1d)将裁剪后的所有图像样本与其对应的文本的词袋向量,组成图像文本对训练集;
步骤2,构建图像和文本特征提取网络:
(2a)构建一个12层的图像特征提取网络,其结构依次为:输入层,第一卷积层,第一最大池化层,第二卷积层,第二最大池化层,第三卷积层,第四卷积层,第五卷积层,第三最大池化层,第一全连接层,第二全连接层,第三全连接层,第四全连接层,输出层;设置图像特征提取网络的各层参数如下:将第一至第五卷积层的卷积核大小分别设置为:11×11×3×64、5×5×64×256、3×3×256×256、3×3×256×256、3×3×256×256,步长分别设置为:4、1、1、1、1;将第一至第四全连接层的神经元数目分别设置为:4096、2048、1024、r,其中r表示图像文本对的哈希码长度,其数值由用户根据其检索的模糊程度从8bits,16bits,32bits,64bits,128bits的编码长度中选取一个长度;第一至第三最大池化层的窗口大小均设置为3×3;
(2b)构建一个由两个卷积层串联的文本特征提取模块;将第一至第二卷积层的卷积核大小分别设置为:1×m×1×8192、1×1×8192×r,步长均设置为1,其中,m表示词袋向量的维度;
(2c)将图像特征提取网络和文本特征提取网络并联成一个图像和文本特征提取网络;
步骤3,利用层次语义结构生成损失函数:
(3a)将所有图像文本对标签中每层所有类别的类哈希码按列从左往右组成一个类哈希码矩阵;
(3b)按照下式,计算训练集中每个图像文本对中每层的层次语义结构:
其中,表示第i个图像文本对中第k层的层次语义结构,Bk表示所有图像文本对第k层的类哈希码矩阵,表示第i个图像文本对中第k层的标签;
(3c)按照下式,计算将每个图像文本对每层的层次语义结构映射到图像文本对哈希码中的损失值:
其中,表示第i个图像文本对第k层的层次语义结构映射到该图像文本对哈希码的损失值,||·||2表示二范数操作,Bi表示第i个图像文本对的哈希码;
(3d)生成损失函数如下:
其中,J表示损失函数,n表示训练集中图像文本对的总数,t表示图像文本对标签的总层数,αk表示第k层的层次语义结构的权重,设置表示第i个图像文本对第k层的标签对该图像文本对对应层的层次语义结构分类的损失值,表示第i个图像文本对的最底层的标签对该图像文本对对应的哈希码分类的损失值,η表示将图像特征和文本特征映射到哈希码中的损失值的权重,其取值范围为(0,e),表示第i个图像文本对中图像特征映射到该图像文本对哈希码中的损失值,表示第i个图像文本对中文本特征映射到该图像文本对哈希码中的损失值;
步骤4,训练图像和文本特征提取网络:
(4a)将训练集中的图像文本对分批次输入到图像和文本特征提取网络中,利用Adam优化算法,用梯度下降法更新当前图像和文本特征提取网络中的参数,其中每个批次包含128个图像文本对;
(4b)利用最小二乘法,对更新网络参数后损失函数中的Bi向量和Wik、Qi、PiI、PiT矩阵分别求一阶导数,并令一阶导数为零,得到每个向量和每个矩阵的封闭解;用每个向量和每个矩阵的封闭解更新当前损失函数中对应的向量和矩阵;
(4c)利用当前更新后向量更新Bk矩阵的每一列
(4d)判断更新后的损失函数是否收敛,若是,则得到训练好的图像和文本特征提取网络、损失函数收敛时的和Bi向量以及Wik、Qi、PiI、PiT矩阵后执行步骤5,否则,执行步骤(4a);
步骤5,用户利用图像检索文本:
(5a)采用与步骤(1b)和(1c)相同的方法,对每个待检索的图像样本和被检索的文本样本进行处理后输入到训练好的图像和文本特征提取网络中,分别得到该图像样本的图像特征向量和文本样本的文本特征向量;
(5b)用输出的每个图像样本特征向量与损失函数收敛时的PiI矩阵相乘,每个文本样本特征向量与损失函数收敛时的PiT矩阵相乘,分别得到该图像样本和文本样本的松弛哈希码向量,将每个向量中大于零的元素记为1,其余的记为-1,得到该图像样本和文本样本的哈希码向量;
(5c)将待检索的每个图像哈希码和被检索的每个文本哈希码进行异或操作,得到两个哈希码的汉明距离,将所有的汉明距离升幂排序后提取前k个文本样本,作为图像检索文本的检索结果;其中,k的取值为小于被检索的文本样本的总数;
步骤6,用户利用文本检索图像:
采用与步骤5相同的方法,用待检索的文本样本和被检索的图像样本得到文本检索图像的检索结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111140203.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种压裂机组的变频控制系统、方法及压裂机组
- 下一篇:搪瓷器皿包边自动化设备





