[发明专利]一种利用位置掩码注意力机制的视频帧增强方法有效
申请号: | 202011172682.6 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112307939B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 马汝辉;王超逸;宋涛;华扬;管海兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/774;G06N3/04;G06T7/73 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 位置 掩码 注意力 机制 视频 增强 方法 | ||
1.一种利用位置掩码注意力机制的视频帧增强方法,其特征在于,包括以下步骤:
步骤1、输入视频帧,并通过预训练卷积神经网络提取特征图;
步骤2、使用特征图增强模块得到增强的特征图;
步骤3、使用所述增强的特征图进行后续处理和预测;
步骤4、输出预测结果;
对所述特征图增强模块进行训练的步骤包括:
步骤2.1、初始化迭代计数;
步骤2.2、若迭代次数在N次以内,则继续,否则结束训练;
步骤2.3、输入视频相邻的两帧;
步骤2.4、使用特征提取器提取特征图;
步骤2.5、对两个特征图分别嵌入到查询、键和值;
步骤2.6、使用多头注意力机制处理;
步骤2.7、计算位置距离掩码;
步骤2.8、得到增强的特征图,代替原特征图进行后续处理,转至步骤2.2;
所述步骤2.5中,将当前帧的特征图使用一个卷积核大小为1乘1的卷积进行通道压缩作为所述查询,对前一帧的特征图使用两个不同的、卷积核大小为1乘1的卷积进行通道压缩,分别得到所述键和值;
所述步骤2.6中,使用多头注意力机制将所述步骤2.5得到的查询、键和值从大小为(batch,channel,height,width)的张量重塑成大小为(batch,group,height*width,sub_channel)的张量作为新的查询、键和值;
所述步骤2.7中,使用矩阵乘法将所述步骤2.6得到的新的查询和键的转置相乘得到关系矩阵,并使用激活函数作用于所述关系矩阵中;
输入所述原特征图的高height与宽width,使用曼哈顿距离计算每个像素位置与其它位置的距离,每个位置都能生成一个大小为height*width的矩阵,一共得到height*width个矩阵;将这些矩阵重塑并拼接到一起得到一个大小为(height*width,height*width)的位置掩码矩阵,广播乘一个可训练的标量scale,并使用激活函数。
2.如权利要求1所述的视频帧增强方法,其特征在于,所述步骤2.4中,所述特征提取器包括预训练好的卷积神经网络,利用所述预训练好的卷积神经网络提取视频帧特征。
3.如权利要求2所述的视频帧增强方法,其特征在于,所述步骤2.4中,提取的视频帧特征为一个比原图更小、通道更多的特征图。
4.如权利要求2所述的视频帧增强方法,其特征在于,所述步骤2.4中,所述特征提取器采用ResNet进行下采样得到特征图。
5.如权利要求2所述的视频帧增强方法,其特征在于,所述步骤2.4中,则每帧的特征图通道数为1024。
6.如权利要求1所述的视频帧增强方法,其特征在于,所述步骤2.7中,使用tanh作为激活函数作用于述关系矩阵中,使用sigmoid作为激活函数作用于所述位置掩码矩阵。
7.如权利要求6所述的视频帧增强方法,其特征在于,所述步骤2.8中,将通过激活函数的所述关系矩阵和所述位置掩码矩阵进行元素级的相乘,得到权重矩阵;对所述权重矩阵沿最后一维做softmax,将得到的结果与在所述步骤2.6得到的新的值相乘,并重塑到和所述原特征图同样的大小,得到所述增强的特征图,用以替代当前帧完成后续的处理和训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011172682.6/1.html,转载请声明来源钻瓜专利网。