[发明专利]一种基于层次注意力模型的图像检索方法有效
申请号: | 201810134366.6 | 申请日: | 2018-02-09 |
公开(公告)号: | CN108460114B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 余春艳;徐小丹;杨素琼;陈立;王秀 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/46;G06N3/04 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层次 注意力 模型 图像 检索 方法 | ||
1.一种基于层次注意力模型的图像检索方法,其特征在于:包括以下步骤:
步骤S1:建立层次注意力模型以得出图像的显著性目标及其对应的显著值,并按其显著性值排序;
步骤S2:利用层次注意力模型将数据库图像分成背景与显著性目标区域,并对每个显著性目标区域提取SIFT特征、HSV颜色直方图及语义特征;
步骤S3:对待搜寻图像的各个显著性目标提取SIFT特征、HSV颜色直方图及语义特征,将待搜寻图像的特征与数据库图像进行特征相似度匹配,对各个显著性目标的相似度进行加权排序得到基于显著性目标的检索结果;
步骤S1中层次注意力模型由显著性对象检测模型、显著性区域检测模型与全连接条件随机场构成,
具体包括以下步骤:
步骤S11:由显著性区域检测模型得到低层的显著性图;
步骤S 12:通过全连接条件随机场将低层的显著性图与显著性对象检测模型得到显著性对象检测框进行结合得到中间层的显著性对象实例图;
步骤S13:用显著性对象检测模型得到的置信度值对显著性对象实例图进行显著性分配得到最终的层次注意力图;
步骤S11包括以下具体步骤:
步骤S111:根据显著性区域检测模型得到的显著性图将像素分为显著性像素V={vt}和背景像素B={Bt},将显著性对象检测模型得到的显著性对象包含的像素记为N表示显著性对象个数;
步骤S112:将背景视为N+1类,根据以下六种假设将显著性图和检测的显著性对象信息融合扩展为显著性对象概率图:
假设1:如果显著性像素vt只被标签为k的显著性对象检测框覆盖,那么显著性像素vt属于第n个显著性对象的概率为1;
假设2:如果显著性像素vt未被任何显著性对象检测框覆盖,那么vt属于N+1个类的概率都为1/N;
假设3:如果显著性像素vt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签分别为l1,...,lq,...,lQ,那么显著性像素vt属于第q个显著性对象的概率为即若则
假设4:如果背景像素bt未被任何显著性对象检测框覆盖,那么背景像素bt属于背景的概率为1;
假设5:如果背景像素bt被标签为k的显著性对象检测框覆盖,且标签为k的显著性对象检测框有覆盖显著性像素,那么背景像素bt为背景的概率为1;
假设6:如果背景像素bt同时被Q个显著性对象检测框覆盖,Q个显著性对象检测框对应的标签为l1,...,lq,...,lQ,若对于标签为lq的显著性对象检测框有覆盖显著性像素,那么背景像素bt属于第lq个显著性对象的概率为0,反之则背景bt属于lq的概率都为1/Q+1,背景像素bt属于背景的概率为1/Q+1;
步骤S113:用全连接条件随机场对显著性对象概率图进行修正,其能量函数如下所示:
其中为一元势函数;为二元势函数;
步骤S11中显著性区域检测模型的网络结构具体如下:
第一层为输入层,输入图像;
第二层由两个卷积层构成,其中第一个卷积层使用64个卷积核,尺寸为(4,4,3),第二个卷积层使用64个卷积核,尺寸为(3,3,64),激活函数为ReLU函数;
第三层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第四层由两个卷积层构成,其中第一个卷积层使用128个卷积核,尺寸为(3,3,64),第二个卷积层使用128个卷积核,尺寸为(3,3,128),激活函数为ReLU函数;
第五层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第六层由三个卷积层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,128),第二个卷积层使用256个卷积核,尺寸为(3,3,256),第三个卷积层使用256个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第七层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第八层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,256),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第九层为池化层,尺寸为(2,2),激活函数为ReLU函数;
第十层由三个卷积层构成,其中第一个卷积层使用512个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,512),第三个卷积层使用512个卷积核,尺寸为(3,3,512),激活函数为ReLU函数;
第十一层为池化层,尺寸为(3,3),扩充边缘尺寸为1,激活函数为ReLU函数;
第十二层由两个卷积层构成,其 中第一个卷积层使用1024个卷积核,尺寸为(3,3,512),第二个卷积层使用512个卷积核,尺寸为(3,3,1024),激活函数为ReLU函数;
第十三层由两个卷积层与一个归一化层构成,其中第一个卷积层使用256个卷积核,尺寸为(3,3,1024),第二个卷积层使用512个卷积核,尺寸为(3,3,256),激活函数为ReLU函数;
第十四层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十三层输出;剪切层,根据第十二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第十二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十五层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用512个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十四层输出;剪切层,根据第八层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第八层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十六层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用256个卷积核,尺寸为(4,4,512),激活函数为ReLU函数,输入为第十五层输出;剪切层,根据第六层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第六层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十七层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用128个卷积核,尺寸为(4,4,256),激活函数为ReLU函数,输入为第十六层输出;剪切层,根据第四层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第四层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十八层由一个去卷积层、一个剪切层、Eltwise层与归一化层组成,其中去卷积层,使用64个卷积核,尺寸为(4,4,128),激活函数为ReLU函数,输入为第十七层输出;剪切层,根据第二层输出的尺寸对去卷积层输出进行剪切;Eltwise层,对第二层输出与剪切层输出进行逐像素相乘,激活函数为ReLU函数;最后为归一化层,对Eltwise层输出进行归一化操作;
第十九层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(4,4,512),卷积层的输入为第十四层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;第二十层由两个去卷积层与一个剪切层组成,其中第一个去卷积层使用1个卷积核,尺寸为(8,8,2),第二个去卷积层使用1个卷积核,尺寸为(8,8,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十一层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第十九层输出,使用2个卷积核,尺寸为(4,4,2),卷积层的输入为第十五层输出,使用1个卷积核,尺寸为(1,1,512),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十二层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(16,16,1),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十三层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十一层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十六层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十四层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(8,8,2),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十五层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十三层输出,使用4个卷积核,尺寸为(4,4,4),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,128),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十六层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(4,4,3),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十七层由一个去卷积层、一个卷积层、一个级联层组成,去卷积层的输入为第二十五层输出,使用3个卷积核,尺寸为(4,4,3),卷积层的输入为第十七层输出,使用1个卷积核,尺寸为(1,1,256),级联层将去卷积层与卷积层的输出进行通道连接,激活函数为ReLU函数;
第二十八层由一个去卷积层与一个剪切层组成,其中去卷积层使用1个卷积核,尺寸为(2,2,4),使用剪切层将去卷积层结果剪切成与原图一样的尺寸,激活函数为Sigmoid函数;
第二十九层由一个级联层与卷积层组成,级联层将第二十八层、第二十六层、第二十四层、第二十二层、第二十层输出进行通道连接,卷积层使用1个卷积核,尺寸为(1,1,5),激活函数为Sigmoid函数,得到最终输出结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810134366.6/1.html,转载请声明来源钻瓜专利网。