[发明专利]一种利用位置掩码注意力机制的视频帧增强方法有效
申请号: | 202011172682.6 | 申请日: | 2020-10-28 |
公开(公告)号: | CN112307939B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 马汝辉;王超逸;宋涛;华扬;管海兵 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06V10/774;G06N3/04;G06T7/73 |
代理公司: | 上海旭诚知识产权代理有限公司 31220 | 代理人: | 郑立 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 位置 掩码 注意力 机制 视频 增强 方法 | ||
一种利用位置掩码注意力机制的视频帧增强方法,输入相邻两个视频帧的特征图,通过位置信息对齐同一像素在不同帧上的位置,从而利用之前帧的信息增强当前帧的信息量,包括位置距离掩码生成和位置注意力信息融合两部分;位置距离掩码生成根据输入特征图的大小,利用相邻两帧像素点的距离生成一个和特征图大小匹配的掩码;位置注意力信息融合利用生成的位置距离掩码,指导原始的注意力机制赋予对齐的像素点更大的权重,从而生成一个增强的特征图来取代当前帧原始的特征图用于后续处理。本发明基于注意力机制,不需要额外的训练参数,可以达到比原始的注意力机制更快的收敛速度和更好的预测结果,可以广泛利用于各种视频任务中。
技术领域
本发明设计计算机视觉方向的视频处理领域,特别涉及一种利用包含位置信息的注意力机制对各种视频任务中当前帧进行增强的方法。
背景技术
注意力机制是深度学习领域的热点研究问题之一。注意力机制及其变体在各个领域引起了广泛的关注并取得了长足的进步。除了自然语言处理(NLP)以外,许多利用注意力的方法在计算机视觉(CV)领域也取得了巨大成就,例如物体检测(object detection)和实例分割(instance segmentation)。
在视频领域中,注意力机制通常被用来做帧的信息加强。输入两帧经过特征提取器(feature extractor)处理的特征图,使用三个不同的核大小为一乘一的卷积,将目标帧的特征图转化为查询(query),参考帧的特征图转化为键(key)和值(value),使用注意力机制得到一个和原特征图大小相同的新特征图,用来代替目标帧的特征图用作后续处理。注意力机制可以在训练时学习输入的两帧之间不同像素位置的相似度,并将相似的区域赋予更大的权值。因此注意力机制是解决各种视频任务中出现的遮挡、运动模糊等问题的通用方法。
原始的注意力机制是位置不敏感的(position-insensitive),它的输出不会随着输入序列的重排而收敛到不同的结果,而对于一些位置敏感的任务来说,其包含了一些位置敏感的先验知识,如视频帧加强,它默认相邻两帧之间上一帧像素对齐的位置大概率出现在当前帧像素附近,所以在原始的注意力机制中编码位置信息可以更好的对这些任务建模。
现有的在注意力机制中编码位置信息的方法都采用位置嵌入(positionembedding)。位置嵌入定义了一组独立的可训练参数,以应用于相对位置向量,并将结果作用于softmax操作中查询(query)与键(key)乘积得到的相似矩阵上。显然,位置嵌入方法在训练过程中需要额外的参数,这会导致额外的内存成本,缓慢的收敛速度和高训练方差。此外,位置嵌入方法的输入大小必须固定,以事先确保嵌入参数数量不变。换句话说,输入大小出现细微差异会导致此方法无法使用,限制模型的可迁移性。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是结合原始的注意力机制加强视频帧的方法,设计一种不限制输入大小,且可以在注意力机制中编码位置信息的通用的视频帧增强模块。该模块输入相邻两帧视频的特征图,使用输出结果代替原始特征图,是一种即插即用,对各种视频任务通用的模块。期间还需克服2个技术难点:
(1)如何使模型更加关注于视频中重要程度相对较高的区域;视频中帧与帧重要性不同,视频中存在部分区域的重要性高于其他区域,若可以使模型更关注于此类区域便能提升性能。
(2)如何设计一个不需要额外训练的可编码位置信息的表示;原有的位置嵌入方法因采用固定参数训练位置信息,不仅有输入大小固定的限制,还需要额外的内存存储参数,造成收敛速度变慢,训练结果方差变大等问题。
本发明采用了位置距离掩码的生成和注意力信息融合,位置距离掩码生成通过利用曼哈顿距离对当前帧特征图中的每个像素生成对于上一帧特征图中的每个像素的像素距离矩阵,再将这些像素距离矩阵组合成位置距离掩码;位置注意力信息融合利用生成的位置距离掩码,通过和一个可学习的尺度因子,与相邻两帧特征图嵌入的乘积做点乘,将位置信息编码在注意力机制中,使生成的增强的特征图赋予相邻位置更高的权重,从而对原始的注意力机制进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011172682.6/2.html,转载请声明来源钻瓜专利网。