[发明专利]一种基于深度学习的全景拼接图像质量评价方法在审
申请号: | 202211187460.0 | 申请日: | 2022-09-28 |
公开(公告)号: | CN115689996A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 田崇祯;邵枫 | 申请(专利权)人: | 宁波大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T3/40;G06T3/00;G06N3/0455;G06N3/0464;G06V10/77;G06V10/82 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 全景 拼接 图像 质量 评价 方法 | ||
1.一种基于深度学习的全景拼接图像质量评价方法,其特征在于包括以下步骤:
步骤一:构建一个视口图像提取功能模块,利用视口图像提取功能模块实现从失真全景拼接图像到失真视口图像的转换及从参考全景拼接图像到参考视口图像的转换,具体过程为:
步骤A1:设定针对同一场景的90°方位的鱼眼图像和270°方位的鱼眼图像拼接得到第1幅全景拼接图像、0°方位的鱼眼图像和180°方位的鱼眼图像拼接得到第2幅全景拼接图像;将第1幅全景拼接图像作为失真全景拼接图像,并记为IS,将IS中坐标位置为(u,v)的像素点的像素值记为IS(u,v);将第2幅全景拼接图像作为参考全景拼接图像,并记为IG,将IG中坐标位置为(u,v)的像素点的像素值记为IG(u,v);其中,1≤u≤W,1≤v≤H,W表示IS和IG的宽度,H表示IS和IG的高度;
步骤A2:对IS进行投影变换,获得IS对应的N个失真视口图像,将IS对应的第i个失真视口图像记为同样,对IG进行投影变换,获得IG对应的N个参考视口图像,将IG对应的第i个参考视口图像记为Vi;其中,N≥1,1≤i≤N,失真视口图像和参考视口图像的宽度为高度为
步骤二:将同一场景的一幅失真全景拼接图像和一幅参考全景拼接图像作为一对图像,将一对图像中的失真全景拼接图像经视口图像提取功能模块转换后得到的N个失真视口图像和参考全景拼接图像经视口图像提取功能模块转换后得到的N个参考视口图像组成N对视口图像,选取N1对图像所对应的N1×N对视口图像构成第一训练集,并选取N2对图像所对应的N2×N对视口图像及每对图像中的失真全景拼接图像的平均主观评分值构成第二训练集,将第二训练集中的每对图像所对应的N对视口图像及该对图像中的失真全景拼接图像的平均主观评分值构成一个子训练集;其中,N表示视口的数量,N≥1,N1≥1500,N2≥1500;
步骤三:将第一训练集中的每对视口图像输入到失真校正网络中,对失真校正网络进行多轮训练,每轮训练失真校正网络输出第一训练集中的每对视口图像中的失真视口图像所对应的伪参考视口图像,多轮训练结束后得到失真校正网络训练模型,并保存失真校正网络训练模型;
步骤四:构建一个深度神经网络作为质量评价网络,其包括特征提取模块、变形器编解码模块、特征回归模块;其中,
所述的特征提取模块主要由N个并行且结构相同的特征提取分支组成,每个特征提取分支用于提取一对视口图像的特征,每个特征提取分支主要由一个Inception-Resnet-V2骨干网络构成,对于第i个特征提取分支:首先,Inception-Resnet-V2骨干网络的输入端同时接收一对视口图像中的失真视口图像和参考视口图像各自的R、G、B三个通道,Inception-Resnet-V2骨干网络的mixed_5b层、block35_2层、block35_4层、block35_6层、block35_8层、block35_10层分别输出该对视口图像中的失真视口图像的特征图,并对应记为Inception-Resnet-V2骨干网络的mixed_5b层、block35_2层、block35_4层、block35_6层、block35_8层、block35_10层分别输出该对视口图像中的参考视口图像的特征图,并对应记为其次,第i个特征提取分支对进行通道维度上的连接操作,将得到的特征图记为并将作为输入到第i个特征提取分支的失真视口图像的特征;同样,对进行通道维度上的连接操作,将得到的特征图记为Fi,并将Fi作为输入到第i个特征提取分支的参考视口图像的特征;其中,的尺寸均为W0×H0×320,和Fi的尺寸均为W0×H0×1920;
所述的变形器编解码模块主要由N个并行且结构相同的特征编解码分支组成,每个特征编解码分支用于对一对视口图像的特征进行变形器编码和变形器解码,每个特征编解码分支主要由第一卷积层、第二卷积层、变形器编码器、变形器解码器构成,第i个特征编解码分支与第i个特征提取分支相对应,对于第i个特征编解码分支:首先,第一卷积层的输入端接收对Fi与进行元素相减操作后得到的差异特征图,第一卷积层的输出端输出通道维度上降维的特征图,并记为第二卷积层的输入端接收Fi,第二卷积层的输出端输出通道维度上降维的特征图,并记为其次,对进行空间维度上的特征展平操作,得到展平后的W0×H0个特征一阶张量,将展平后的第k个特征一阶张量记为同样,对进行空间维度上的特征展平操作,得到展平后的W0×H0个特征一阶张量,将展平后的第k个特征一阶张量记为再次,构建一个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的差异质量一阶张量,记为而后将和展平后的W0×H0个特征一阶张量组合起来构成差异质量特征张量,记为并构建Num个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的差异位置一阶张量,将第m个差异位置一阶张量记为而后将Num个差异位置一阶张量组合起来构成差异位置特征张量,记为同样,构建一个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的参考质量一阶张量,记为qi,而后将qi和展平后的W0×H0个特征一阶张量组合起来构成参考质量特征张量,记为并构建Num个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的参考位置一阶张量,将第m个参考位置一阶张量记为pi,m,而后将Num个参考位置一阶张量组合起来构成参考位置特征张量,记为从次,对和中次序相对应的一阶张量进行元素相加操作,得到包含位置信息的差异特征张量,记为同样,对和中次序相对应的一阶张量进行元素相加操作,得到包含位置信息的参考特征张量,记为最后,将输入到变形器编码器中,变形器编码器输出包含有Num个尺寸为1×1×256的一阶张量的差异特征张量,记为将输入到变形器解码器中,变形器解码器输出包含有Num个尺寸为1×1×256的一阶张量的参考特征张量,记为Di;将Ei作为变形器解码器中的第2个多头注意力层的Key和Value输入到变形器解码器中;其中,第一卷积层和第二卷积层的输入通道数均为1920、输出通道数均为256、卷积核大小均为1×1、滑动步长均为1、自动填充均为0,和的尺寸为W0×H0×256,1≤k≤W0×H0,和的尺寸为1×1×256,的尺寸为1×1×256,包含Num个尺寸为1×1×256的一阶张量,Num=W0×H0+1,为中的第1个一阶张量,展平后的W0×H0个特征一阶张量根据k从1变化到W0×H0对应为中的第2个一阶张量至第Num个一阶张量,1≤m≤Num,的尺寸为1×1×256,包含Num个尺寸为1×1×256的一阶张量,Num个差异位置一阶张量根据m从1变化到Num对应为中的第1个一阶张量至第Num个一阶张量,qi的尺寸为1×1×256,包含Num个尺寸为1×1×256的一阶张量,qi为中的第1个一阶张量,展平后的W0×H0个特征一阶张量根据k从1变化到W0×H0对应为中的第2个一阶张量至第Num个一阶张量,pi,m的尺寸为1×1×256,包含Num个尺寸为1×1×256的一阶张量,Num个参考位置一阶张量根据m从1变化到Num对应为中的第1个一阶张量至第Num个一阶张量,包含Num个尺寸为1×1×256的一阶张量,包含Num个尺寸为1×1×256的一阶张量;
所述的特征回归模块主要由N个并行且结构相同的特征回归分支和1个整合用全连接层组成,每个特征回归分支用于对一个变形器解码器输出的参考特征张量进行回归,整合用全连接层用于整合N个特征回归分支回归后的特征,每个特征回归分支主要由第一全连接层、ReLU激活层、第二全连接层构成,第i个特征回归分支与第i个特征编解码分支相对应,对于第i个特征回归分支:首先,将Di中的第1个尺寸为1×1×256的一阶张量单独提取出;其次,第一全连接层的输入端接收单独提取出的一阶张量,第一全连接层的输出端输出的尺寸为1×1×512的一阶张量记为ReLU激活层的输入端接收ReLU激活层的输出端输出的尺寸为1×1×512的一阶张量记为第二全连接层的输入端接收第二全连接层的输出端输出一个数值;再次,将N个特征回归分支各自中的第二全连接层的输出端输出的数值组成一个维数为1×N的特征向量,记为Ffinal;最后,整合用全连接层的输入端接收Ffinal,整合用全连接层的输出端输出一个数值,该数值作为失真全景拼接图像的质量预测分数;其中,第一全连接层的输入通道数为256、输出通道数为512,第二全连接层的输入通道数为512、输出通道数为1,整合用全连接层的输入通道数为4、输出通道数为1;
步骤五:将第二训练集中的每个子训练集中的N对视口图像同时输入到质量评价网络中,并将每个子训练集中的平均主观评分值作为标签输入到质量评价网络中,对质量评价网络进行多轮训练,每轮训练质量评价网络输出各个子训练集所对应的失真全景拼接图像的质量预测分数,多轮训练结束后得到质量评价网络训练模型,并保存质量评价网络训练模型;
步骤六:任意选取一幅由针对同一场景的90°方位的鱼眼图像和270°方位的鱼眼图像拼接得到的尺寸为W×H的全景拼接图像,作为待质量评价的失真全景拼接图像,并记为IT;然后按照步骤A2的过程以相同的方式对IT进行投影变换,获得IT对应的N个失真视口图像,将IT对应的第i个失真视口图像记为接着将IT对应的每个失真视口图像输入到失真校正网络训练模型中,失真校正网络训练模型输出IT对应的每个失真视口图像所对应的伪参考视口图像;最后将IT对应的每个失真视口图像及其所对应的伪参考视口图像构成一对视口图像,将IT对应的N对视口图像同时输入到质量评价网络训练模型中,质量评价网络训练模型输出IT的质量预测分数;其中,的宽度为高度为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211187460.0/1.html,转载请声明来源钻瓜专利网。