[发明专利]基于参数共享深度学习网络的立体图像视觉显著提取方法有效

专利信息
申请号: 201910168092.7 申请日: 2019-03-06
公开(公告)号: CN109977967B 公开(公告)日: 2020-12-25
发明(设计)人: 周武杰;蔡星宇;钱亚冠;王海江;何成;邱薇薇 申请(专利权)人: 浙江科技学院
主分类号: G06K9/46 分类号: G06K9/46;G06T7/10
代理公司: 宁波奥圣专利代理有限公司 33226 代理人: 周珏
地址: 310023 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于参数共享深度学习网络的立体图像视觉显著提取方法,其在训练阶段构建参数共享深度学习网络,其包括输入层、参数共享特征提取框架、显著图生成框架,参数共享特征提取框架由resnet‑50网络中的第1块resnet‑50卷积网络块、第2块resnet‑50卷积网络块、第3块resnet‑50卷积网络块、第4块resnet‑50卷积网络块、第5块resnet‑50卷积网络块依次设置组成,利用参数共享特征提取框架提取彩色图特征和视差图特征;在测试阶段利用参数共享深度学习网络训练模型对待测试的立体图像的左视点图像和左视差图像进行预测,得到人类注视预测图即视觉显著图像;优点是其提取的立体视觉特征符合显著语义,且其具有较强的提取稳定性和较高的提取准确性。
搜索关键词: 基于 参数 共享 深度 学习 网络 立体 图像 视觉 显著 提取 方法
【主权项】:
1.一种基于参数共享深度学习网络的立体图像视觉显著提取方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为R且高度为L的立体图像,将第n幅立体图像的左视点图像、左视差图像和人类注视图对应记为{IL,n(x,y)}、{ID,n(x,y)}和{IF,n(x,y)};再将每幅立体图像的左视点图像缩放到480×640像素尺寸,得到每幅立体图像的左视点图像对应的480×640像素尺寸图像,将{IL,n(x,y)}对应的480×640像素尺寸图像记为{IL,n(x480,y640)};并将每幅立体图像的左视差图像缩放到480×640像素尺寸,得到每幅立体图像的左视差图像对应的480×640像素尺寸图像,将{ID,n(x,y)}对应的480×640像素尺寸图像记为{ID,n(x480,y640)};将每幅立体图像的人类注视图缩放到30×40像素尺寸,得到每幅立体图像的人类注视图对应的30×40像素尺寸图像,将{IF,n(x,y)}对应的30×40像素尺寸图像记为{IF,n(x30,y40)};其中,N为正整数,N≥100,n为正整数,n的初始值为1,1≤n≤N,1≤x≤R,1≤y≤L,IL,n(x,y)表示{IL,n(x,y)}中坐标位置为(x,y)的像素点的像素值,ID,n(x,y)表示{ID,n(x,y)}中坐标位置为(x,y)的像素点的像素值,IF,n(x,y)表示{IF,n(x,y)}中坐标位置为(x,y)的像素点的像素值,1≤x480≤480,1≤y640≤640,IL,n(x480,y640)表示{IL,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,ID,n(x480,y640)表示{ID,n(x480,y640)}中坐标位置为(x480,y640)的像素点的像素值,1≤x30≤30,1≤y40≤40,IF,n(x30,y40)表示{IF,n(x30,y40)}中坐标位置为(x30,y40)的像素点的像素值;步骤1_2:构建参数共享深度学习网络:参数共享深度学习网络包括输入层、参数共享特征提取框架、显著图生成框架;输入层由彩色图输入层和视差图输入层组成;参数共享特征提取框架由resnet‑50网络中的第1块resnet‑50卷积网络块、第2块resnet‑50卷积网络块、第3块resnet‑50卷积网络块、第4块resnet‑50卷积网络块、第5块resnet‑50卷积网络块依次设置组成;显著图生成框架由连接层和卷积层组成,其中,卷积层的卷积核大小为(3,3)、卷积步长为(1,1)、卷积核数目为1、激活函数为relu函数;在输入层中,对于彩色图输入层,彩色图输入层的输入端接收一幅输入立体图像的左视点图像对应的480×640像素尺寸图像,彩色图输入层的输出端输出左视点图像对应的480×640像素尺寸图像给参数共享特征提取框架;对于视差图输入层,视差图输入层的输入端接收一幅输入立体图像的左视差图像对应的480×640像素尺寸图像,视差图输入层的输出端输出左视差图像对应的480×640像素尺寸图像给参数共享特征提取框架;其中,要求输入立体图像的宽度为R且高度为L;在参数共享特征提取框架中,在参数共享的前提下,第1块resnet‑50卷积网络块的输入端接收彩色图输入层的输出端输出的左视点图像对应的480×640像素尺寸图像,同时接收视差图输入层的输出端输出的左视差图像对应的480×640像素尺寸图像;第1块resnet‑50卷积网络块的输出端输出与左视点图像相应的64幅特征图,同时输出与左视差图像相应的64幅特征图,将输出的与左视点图像相应的64幅特征图构成的集合记为VL,1,将输出的与左视差图像相应的64幅特征图构成的集合记为VD,1;其中,VL,1和VD,1中的特征图的宽度均为480且高度均为640;在参数共享的前提下,第2块resnet‑50卷积网络块的输入端接收VL,1中的所有特征图,同时接收VD,1中的所有特征图;第2块resnet‑50卷积网络块的输出端输出与左视点图像相应的256幅特征图,同时输出与左视差图像相应的256幅特征图,将输出的与左视点图像相应的256幅特征图构成的集合记为VL,2,将输出的与左视差图像相应的256幅特征图构成的集合记为VD,2;其中,VL,2和VD,2中的特征图的宽度均为240且高度均为320;在参数共享的前提下,第3块resnet‑50卷积网络块的输入端接收VL,2中的所有特征图,同时接收VD,2中的所有特征图;第3块resnet‑50卷积网络块的输出端输出与左视点图像相应的512幅特征图,同时输出与左视差图像相应的512幅特征图,将输出的与左视点图像相应的512幅特征图构成的集合记为VL,3,将输出的与左视差图像相应的512幅特征图构成的集合记为VD,3;其中,VL,3和VD,3中的特征图的宽度均为120且高度均为160;在参数共享的前提下,第4块resnet‑50卷积网络块的输入端接收VL,3中的所有特征图,同时接收VD,3中的所有特征图;第4块resnet‑50卷积网络块的输出端输出与左视点图像相应的1024幅特征图,同时输出与左视差图像相应的1024幅特征图,将输出的与左视点图像相应的1024幅特征图构成的集合记为VL,4,将输出的与左视差图像相应的1024幅特征图构成的集合记为VD,4;其中,VL,4和VD,4中的特征图的宽度均为60且高度均为80;在参数共享的前提下,第5块resnet‑50卷积网络块的输入端接收VL,4中的所有特征图,同时接收VD,4中的所有特征图;第5块resnet‑50卷积网络块的输出端输出与左视点图像相应的2048幅特征图,同时输出与左视差图像相应的2048幅特征图,将输出的与左视点图像相应的2048幅特征图构成的集合记为VL,5,将输出的与左视差图像相应的2048幅特征图构成的集合记为VD,5;其中,VL,5和VD,5中的特征图的宽度均为30且高度均为40;在显著图生成框架中,连接层的输入端接收VL,5中的所有特征图和VD,5中的所有特征图,连接层的输出端输出4096幅特征图;卷积层的输入端接收连接层的输出端输出的所有特征图,卷积层的输出端输出1幅特征图,该幅特征图即为输入立体图像的人类注视预测图;其中,连接层的输出端输出的特征图的宽度均为30且高度均为40,人类注视预测图的宽度为30且高度为40;步骤1_3:将步骤1_1中选取的每幅立体图像作为输入立体图像,将每幅输入立体图像的人类注视图对应的30×40像素尺寸图像作为监督,将每幅输入立体图像的左视点图像对应的480×640像素尺寸图像及左视差图像对应的480×640像素尺寸图像输入到参数共享深度学习网络中进行训练,得到每幅输入立体图像的人类注视预测图;步骤1_4:重复执行步骤1_3共M次,得到参数共享深度学习网络训练模型及其最优权值矢量和最优偏置项;其中,M为正整数,M>1;所述的测试阶段过程的具体步骤为:步骤2_1:令{Itest(x',y')}表示待测试的立体图像,将{Itest(x',y')}的左视点图像和左视差图像对应记为{Itest,L(x',y')}和{Itest,D(x',y')};再将{Itest,L(x',y')}缩放到480×640像素尺寸,得到{Itest,L(x',y')}对应的480×640像素尺寸图像,记为{Itest,L(x'480,y'640)};并将{Itest,D(x',y')}缩放到480×640像素尺寸,得到{Itest,D(x',y')}对应的480×640像素尺寸图像,记为{Itest,D(x'480,y'640)};其中,1≤x'≤R',1≤y'≤L',R'表示{Itest(x',y')}的宽度,L'表示{Itest(x',y')}的高度,Itest(x',y')表示{Itest(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,L(x',y')表示{Itest,L(x',y')}中坐标位置为(x',y')的像素点的像素值,Itest,D(x',y')表示{Itest,D(x',y')}中坐标位置为(x',y')的像素点的像素值,1≤x'480≤480,1≤y'640≤640,Itest,L(x'480,y'640)表示{Itest,L(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值,Itest,D(x'480,y'640)表示{Itest,D(x'480,y'640)}中坐标位置为(x'480,y'640)的像素点的像素值;步骤2_2:将{Itest,L(x'480,y'640)}和{Itest,D(x'480,y'640)}输入到参数共享深度学习网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,得到{Itest(x',y')}的人类注视预测图即视觉显著图像,记为{Itest,F(x'30,y'40)};其中,1≤x'30≤30,1≤y'40≤40,Itest,F(x'30,y'40)表示{Itest,F(x'30,y'40)}中坐标位置为(x'30,y'40)的像素点的像素值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910168092.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top