[发明专利]一种基于深度学习的全景拼接图像质量评价方法在审

申请号：	202211187460.0	申请日：	2022-09-28
公开（公告）号：	CN115689996A	公开（公告）日：	2023-02-03
发明（设计）人：	田崇祯;邵枫	申请（专利权）人：	宁波大学
主分类号：	G06T7/00	分类号：	G06T7/00;G06T3/40;G06T3/00;G06N3/0455;G06N3/0464;G06V10/77;G06V10/82
代理公司：	宁波奥圣专利代理有限公司 33226	代理人：	周珏
地址：	315211 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度学习全景拼接图像质量评价方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度学习的全景拼接图像质量评价方法，其特征在于包括以下步骤：

步骤一：构建一个视口图像提取功能模块，利用视口图像提取功能模块实现从失真全景拼接图像到失真视口图像的转换及从参考全景拼接图像到参考视口图像的转换，具体过程为：

步骤A1：设定针对同一场景的90°方位的鱼眼图像和270°方位的鱼眼图像拼接得到第1幅全景拼接图像、0°方位的鱼眼图像和180°方位的鱼眼图像拼接得到第2幅全景拼接图像；将第1幅全景拼接图像作为失真全景拼接图像，并记为I_S，将I_S中坐标位置为(u,v)的像素点的像素值记为I_S(u,v)；将第2幅全景拼接图像作为参考全景拼接图像，并记为I_G，将I_G中坐标位置为(u,v)的像素点的像素值记为I_G(u,v)；其中，1≤u≤W，1≤v≤H，W表示I_S和I_G的宽度，H表示I_S和I_G的高度；

步骤A2：对I_S进行投影变换，获得I_S对应的N个失真视口图像，将I_S对应的第i个失真视口图像记为同样，对I_G进行投影变换，获得I_G对应的N个参考视口图像，将I_G对应的第i个参考视口图像记为V_i；其中，N≥1，1≤i≤N，失真视口图像和参考视口图像的宽度为高度为

步骤二：将同一场景的一幅失真全景拼接图像和一幅参考全景拼接图像作为一对图像，将一对图像中的失真全景拼接图像经视口图像提取功能模块转换后得到的N个失真视口图像和参考全景拼接图像经视口图像提取功能模块转换后得到的N个参考视口图像组成N对视口图像，选取N₁对图像所对应的N₁×N对视口图像构成第一训练集，并选取N₂对图像所对应的N₂×N对视口图像及每对图像中的失真全景拼接图像的平均主观评分值构成第二训练集，将第二训练集中的每对图像所对应的N对视口图像及该对图像中的失真全景拼接图像的平均主观评分值构成一个子训练集；其中，N表示视口的数量，N≥1，N₁≥1500，N₂≥1500；

步骤三：将第一训练集中的每对视口图像输入到失真校正网络中，对失真校正网络进行多轮训练，每轮训练失真校正网络输出第一训练集中的每对视口图像中的失真视口图像所对应的伪参考视口图像，多轮训练结束后得到失真校正网络训练模型，并保存失真校正网络训练模型；

步骤四：构建一个深度神经网络作为质量评价网络，其包括特征提取模块、变形器编解码模块、特征回归模块；其中，

所述的特征提取模块主要由N个并行且结构相同的特征提取分支组成，每个特征提取分支用于提取一对视口图像的特征，每个特征提取分支主要由一个Inception-Resnet-V2骨干网络构成，对于第i个特征提取分支：首先，Inception-Resnet-V2骨干网络的输入端同时接收一对视口图像中的失真视口图像和参考视口图像各自的R、G、B三个通道，Inception-Resnet-V2骨干网络的mixed_5b层、block35_2层、block35_4层、block35_6层、block35_8层、block35_10层分别输出该对视口图像中的失真视口图像的特征图，并对应记为Inception-Resnet-V2骨干网络的mixed_5b层、block35_2层、block35_4层、block35_6层、block35_8层、block35_10层分别输出该对视口图像中的参考视口图像的特征图，并对应记为其次，第i个特征提取分支对进行通道维度上的连接操作，将得到的特征图记为并将作为输入到第i个特征提取分支的失真视口图像的特征；同样，对进行通道维度上的连接操作，将得到的特征图记为Fⁱ，并将Fⁱ作为输入到第i个特征提取分支的参考视口图像的特征；其中，的尺寸均为W₀×H₀×320，和Fⁱ的尺寸均为W₀×H₀×1920；

所述的变形器编解码模块主要由N个并行且结构相同的特征编解码分支组成，每个特征编解码分支用于对一对视口图像的特征进行变形器编码和变形器解码，每个特征编解码分支主要由第一卷积层、第二卷积层、变形器编码器、变形器解码器构成，第i个特征编解码分支与第i个特征提取分支相对应，对于第i个特征编解码分支：首先，第一卷积层的输入端接收对Fⁱ与进行元素相减操作后得到的差异特征图，第一卷积层的输出端输出通道维度上降维的特征图，并记为第二卷积层的输入端接收Fⁱ，第二卷积层的输出端输出通道维度上降维的特征图，并记为其次，对进行空间维度上的特征展平操作，得到展平后的W₀×H₀个特征一阶张量，将展平后的第k个特征一阶张量记为同样，对进行空间维度上的特征展平操作，得到展平后的W₀×H₀个特征一阶张量，将展平后的第k个特征一阶张量记为再次，构建一个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的差异质量一阶张量，记为而后将和展平后的W₀×H₀个特征一阶张量组合起来构成差异质量特征张量，记为并构建Num个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的差异位置一阶张量，将第m个差异位置一阶张量记为而后将Num个差异位置一阶张量组合起来构成差异位置特征张量，记为同样，构建一个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的参考质量一阶张量，记为qⁱ，而后将qⁱ和展平后的W₀×H₀个特征一阶张量组合起来构成参考质量特征张量，记为并构建Num个从均值为0且方差为1的标准正态分布中随机抽取的一组随机数构成的参考位置一阶张量，将第m个参考位置一阶张量记为p^i,m，而后将Num个参考位置一阶张量组合起来构成参考位置特征张量，记为从次，对和中次序相对应的一阶张量进行元素相加操作，得到包含位置信息的差异特征张量，记为同样，对和中次序相对应的一阶张量进行元素相加操作，得到包含位置信息的参考特征张量，记为最后，将输入到变形器编码器中，变形器编码器输出包含有Num个尺寸为1×1×256的一阶张量的差异特征张量，记为将输入到变形器解码器中，变形器解码器输出包含有Num个尺寸为1×1×256的一阶张量的参考特征张量，记为Dⁱ；将Eⁱ作为变形器解码器中的第2个多头注意力层的Key和Value输入到变形器解码器中；其中，第一卷积层和第二卷积层的输入通道数均为1920、输出通道数均为256、卷积核大小均为1×1、滑动步长均为1、自动填充均为0，和的尺寸为W₀×H₀×256，1≤k≤W₀×H₀，和的尺寸为1×1×256，的尺寸为1×1×256，包含Num个尺寸为1×1×256的一阶张量，Num＝W₀×H₀+1，为中的第1个一阶张量，展平后的W₀×H₀个特征一阶张量根据k从1变化到W₀×H₀对应为中的第2个一阶张量至第Num个一阶张量，1≤m≤Num，的尺寸为1×1×256，包含Num个尺寸为1×1×256的一阶张量，Num个差异位置一阶张量根据m从1变化到Num对应为中的第1个一阶张量至第Num个一阶张量，qⁱ的尺寸为1×1×256，包含Num个尺寸为1×1×256的一阶张量，qⁱ为中的第1个一阶张量，展平后的W₀×H₀个特征一阶张量根据k从1变化到W₀×H₀对应为中的第2个一阶张量至第Num个一阶张量，p^i,m的尺寸为1×1×256，包含Num个尺寸为1×1×256的一阶张量，Num个参考位置一阶张量根据m从1变化到Num对应为中的第1个一阶张量至第Num个一阶张量，包含Num个尺寸为1×1×256的一阶张量，包含Num个尺寸为1×1×256的一阶张量；

所述的特征回归模块主要由N个并行且结构相同的特征回归分支和1个整合用全连接层组成，每个特征回归分支用于对一个变形器解码器输出的参考特征张量进行回归，整合用全连接层用于整合N个特征回归分支回归后的特征，每个特征回归分支主要由第一全连接层、ReLU激活层、第二全连接层构成，第i个特征回归分支与第i个特征编解码分支相对应，对于第i个特征回归分支：首先，将Dⁱ中的第1个尺寸为1×1×256的一阶张量单独提取出；其次，第一全连接层的输入端接收单独提取出的一阶张量，第一全连接层的输出端输出的尺寸为1×1×512的一阶张量记为ReLU激活层的输入端接收ReLU激活层的输出端输出的尺寸为1×1×512的一阶张量记为第二全连接层的输入端接收第二全连接层的输出端输出一个数值；再次，将N个特征回归分支各自中的第二全连接层的输出端输出的数值组成一个维数为1×N的特征向量，记为F_final；最后，整合用全连接层的输入端接收F_final，整合用全连接层的输出端输出一个数值，该数值作为失真全景拼接图像的质量预测分数；其中，第一全连接层的输入通道数为256、输出通道数为512，第二全连接层的输入通道数为512、输出通道数为1，整合用全连接层的输入通道数为4、输出通道数为1；

步骤五：将第二训练集中的每个子训练集中的N对视口图像同时输入到质量评价网络中，并将每个子训练集中的平均主观评分值作为标签输入到质量评价网络中，对质量评价网络进行多轮训练，每轮训练质量评价网络输出各个子训练集所对应的失真全景拼接图像的质量预测分数，多轮训练结束后得到质量评价网络训练模型，并保存质量评价网络训练模型；

步骤六：任意选取一幅由针对同一场景的90°方位的鱼眼图像和270°方位的鱼眼图像拼接得到的尺寸为W×H的全景拼接图像，作为待质量评价的失真全景拼接图像，并记为I_T；然后按照步骤A2的过程以相同的方式对I_T进行投影变换，获得I_T对应的N个失真视口图像，将I_T对应的第i个失真视口图像记为接着将I_T对应的每个失真视口图像输入到失真校正网络训练模型中，失真校正网络训练模型输出I_T对应的每个失真视口图像所对应的伪参考视口图像；最后将I_T对应的每个失真视口图像及其所对应的伪参考视口图像构成一对视口图像，将I_T对应的N对视口图像同时输入到质量评价网络训练模型中，质量评价网络训练模型输出I_T的质量预测分数；其中，的宽度为高度为

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于宁波大学，未经宁波大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211187460.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度学习的全景拼接图像质量评价方法在审

专利文献下载