[发明专利]利用多频动态空洞卷积的视频语义分割方法有效
申请号: | 202110718738.1 | 申请日: | 2021-06-28 |
公开(公告)号: | CN113538457B | 公开(公告)日: | 2022-06-24 |
发明(设计)人: | 李平;陈俊杰;王然;徐向华 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 陈炜 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 动态 空洞 卷积 视频 语义 分割 方法 | ||
本发明公开了利用多频动态空洞卷积的视频语义分割方法。本发明方法首先对视频数据的采样帧图像进行增强处理,并通过编码器提取浅层视觉特征图;然后构建特征频率分离模块获得视频帧对应的多频特征图,并将其输入动态空洞卷积模块,得到对应的多频高层语义特征图,再通过上采样卷积编码器获得视频帧的分割掩膜;利用随机梯度下降算法迭代训练模型直至收敛,将新视频输入模型得到语义分割结果。本发明方法对视频帧的特征图按不同频率分离以刻画不同视觉区域变化,能够减少低频视觉空间冗余信息、降低计算复杂度,通过动态空洞卷积自适应地扩大多频特征图的感受野,提升对视频不同语义类的判别能力,从而获得更优视频语义分割结果。
技术领域
本发明属于计算机视觉技术领域,尤其是视频处理中的语义分割领域,涉及一种利用多频动态空洞卷积的视频语义分割方法。
背景技术
随着各类车辆的与日俱增,驾驶安全成为政府和民众非常关心的方面。一般来说,连续驾驶较长时间会使人疲劳注意力分散,同时大型车辆的驾驶员容易存在视觉盲区,给驾驶安全带来极大隐患。近年来,自动驾驶技术引起业界对自动驾驶技术的浓厚兴趣,越来越多的研究力量被投入到这一领域。高效的视觉理解能为自动驾驶的安全提供保障,视频语义分割是其核心技术之一。视频语义分割旨在对存在时序关联的视频帧进行像素级别的类别标记,得到与原始视频帧同等尺寸的逐像素类别掩膜矩阵,可广泛应用在机器视觉、视频监控、无人机侦察、自动驾驶等领域。例如,在自动驾驶环境中,对车辆视觉场景中的道路、行人或其他车辆等物体进行像素级分割,能够获得比边界框更为精确的物体区域信息,从而为自动驾驶系统提供更为准确的视觉感知内容,有利于规避行人、车辆等障碍物并确保司乘安全。目前,视频语义分割领域的主要挑战包括模型的计算复杂度高、处理高分辨率视频帧耗时长、模型难以部署在实时环境中。
传统语义分割方法主要分为阈值、边缘、超像素聚类等几类。其中,阈值分割方法将图像每个像素点的灰度值与阈值比较,灰度值大于阈值的像素被判断成前景,其他为背景,但只适用灰度图像;边缘分割方法先对图像进行边缘检测,同一边缘内的像素代表同一物体,缺点是分割精度受限于边缘检测算法;超像素聚类方法将近似的超像素块聚合以刻画相同物体,缺点是超像素的形成受限于像素的颜色和像素区域的纹理,且易将同一物体的不同部分分成多个超像素,导致分割错误。近年来,深层神经网络由于其强大的特征提取能力而广受欢迎,典型的方法均利用卷积神经网络作为编码器提取视频帧的抽象语义信息,通过解码器的逐层上采样操作获得语义分割掩膜。然而,卷积层仅能提取帧图像的局部语义信息,难以刻画全局场景特征。为此,空间金字塔池化技术被用于语义分割,其显著特点是:对从编码器获取的特征图做多次并行池化操作得到不同大小的压缩特征图,以捕获多个尺寸感受野的全局场景特征,再经过上采样恢复成与初始特征图大小相同的特征图并与其拼接得到总体特征图,最后经解码器得到语义分割掩膜,据此获得视频语义分割结果。
现有的语义分割方法仍然存在许多缺点:1)空间金字塔池化技术同时考虑了局部和全局的时空结构信息使得分割结果更加可靠,但是对高分辨率的特征图使用最大平均池化操作会造成容错性不佳、泛化能力差、计算复杂度高等不足;2)利用注意力机制虽然加强了特征图之间的长期语义依赖关系,但是模型臃肿、内存占用多,不利于模型的实时部署;3)Transformer编码器,作为特征抽取器被广泛用于自然语言处理,以二维图像的一维嵌入特征表示序列为输入,利用自注意力机制、多层感知机堆叠捕获视频帧之间的长期依赖关系,但是模型缺乏权值共享导致参数量巨大,且自注意力的计算复杂度高使得实时性难以保障。同时,大多数分割方法的精度和实时性无法做到有效平衡,导致不能有效地满足实际分割任务的需求。因此,针对分割模型的计算复杂度高、泛化能力差等问题,迫切需要一种既能保障分割模型的实时性又能达到较高语义分割精度的方法。
发明内容
本发明的目的就是针对现有技术的不足,提供一种利用多频动态空洞卷积的视频语义分割方法,通过傅里叶变换对特征图进行多种频率分离,多频特征图能够刻画不同视觉区域的不同灰度值变化,以减少低频视觉空间冗余信息并降低计算复杂度;同时设计动态空洞卷积自适应扩大多频特征图的感受野,从全局和局部角度提升模型对视频不同语义类的判别能力,从而提高视频语义分割精度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110718738.1/2.html,转载请声明来源钻瓜专利网。