[发明专利]利用多频动态空洞卷积的视频语义分割方法有效

专利信息
申请号: 202110718738.1 申请日: 2021-06-28
公开(公告)号: CN113538457B 公开(公告)日: 2022-06-24
发明(设计)人: 李平;陈俊杰;王然;徐向华 申请(专利权)人: 杭州电子科技大学
主分类号: G06T7/11 分类号: G06T7/11;G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 陈炜
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 利用 动态 空洞 卷积 视频 语义 分割 方法
【权利要求书】:

1.利用多频动态空洞卷积的视频语义分割方法,其特征在于,该方法首先获取视频数据集合,然后进行如下操作:

步骤(1)对视频采样获得视频帧,并进行增强操作,然后输入至编码器,即深度卷积神经网络,获得对应的浅层视觉特征图;具体是:

(1-1)对单个视频进行均匀采样获得视频帧,采样率为10~15帧/秒,并对其进行增强操作得到数量为N的视频帧序列I,记为其中Ii表示第i个视频帧,表示实数域,3表示RGB通道数量,H表示视频帧高度,W表示视频帧宽度;

(1-2)利用大型图像库ImageNet上预训练的卷积神经网络ResNet对视频帧序列I依次提取浅层视觉特征图Cf表示特征图的通道数,Hf表示特征图高度,Wf表示特征图宽度;ResNet具有多个由卷积层组成的模块,fi为第i个视频帧经过RestNet前三个由多个卷积层组成的模块得到的特征图;

步骤(2)构建特征频率分离模块,输入为浅层视觉特征图,输出多频特征图;具体是:

(2-1)构建特征频率分离模块,利用图像具有频率可分离的特点,对浅层视觉特征图进行三次高低频特征分离操作获得多频特征图;其中,高频特征刻画特征图的轮廓区域,低频特征刻画特征图的平面区域,中频特征刻画特征图的内容区域;

(2-2)高低频特征分离的具体操作如下:

首先对浅层视觉特征图fi做快速傅里叶变换,将空域信号转换为频域信号得到fi的频谱图将中低频信号部分平移到中间得到平移频谱图确定的中心位置向量(P,Q);其中,通道中心点的横坐标值组成的向量纵坐标值组成的向量下标r表示的通道索引;

然后将中每个元素与低频转移函数Hl(ur,a,,vr,b)作乘法运算得到低频平移频谱图高斯低通滤波器的转移函数l表示低频信号,a表示像素点横轴坐标值,b表示像素点纵轴坐标值,{0≤a≤Hf,0≤b≤Wf},exp(·)表示指数函数,D0是设定的标准差;其中,表示中第r个通道像素点(a,b)距离坐标点(Pr,Qr)的欧式距离,ur,a是中第r个通道频谱位置(a,0)距离Pr的欧式距离,vr,b是中第r个通道频谱位置(0,b)距离Qr的欧式距离;

同理,将中每个元素与高频转移函数Hh(ur,a,,vr,b)作乘法运算得到高频平移频谱图其中h表示高频信号,

分别将频谱图与中的低频信号从中间平移回到原始位置,得到低频频谱图和高频频谱图

最后将和分别做快速傅里叶逆变换将频域信号转换为空域信号,得到弱低频特征图和弱高频特征图

(2-3)按照(2-2),对弱高频特征图进行第二次高低频特征分离操作,得到强高频特征图和中高频特征图hh表示特征图经过两次高频信号过滤,hl表示特征图先经过一次高频信号过滤,再经过一次低频信号过滤;

按照(2-2),对弱低频特征图进行第二次高低频特征分离操作,得到强低频特征图和中低频特征图ll表示特征图经过两次低频信号过滤,lh表示特征图先经过一次低频信号过滤,再经过一次高频信号过滤;

(2-4)将中高频特征图和中低频特征图进行一次拼接,经过一次大小为1×1的卷积操作得到压缩后的特征图,再经过步长为2的最大池化操作进行下采样得到中频特征图其中m表示中频信号,为中频特征图的通道维度;

(2-5)将强低频特征图经过一次大小为1×1卷积操作得到压缩后的特征图,再经过步长为4的最大池化操作进行下采样得到低频特征图将强高频特征图经过一次大小为1×1卷积操作得到压缩后的高频特征图其中,和分别表示高频特征图和低频特征图的通道维度;

步骤(3)构建动态空洞卷积模块,输入为多频特征图,输出多频高层语义特征图;具体是:

(3-1)构建由一个权重计算器、K个并行的空洞卷积核组成的动态空洞卷积模块,将多频特征图分别输入到动态空洞卷积模块,得到多频高层语义特征图,包括低频高层语义特征图、中频高层语义特征图和高频高层语义特征图;

(3-2)动态空洞卷积的具体操作如下:将低频特征图输入到权重计算器得到输出K个权重wt表示第t个空洞卷积的权重,0≤wt<1,权重计算器由一次全局平均池化操作、一个全连接层、一个Relu函数、一个全连接层、一个Softmax函数组成;K个并行的空洞卷积核Kt表示第t个空洞率为2的3×3空洞卷积;Kt分别与对应的权重wt做点乘运算,再将K个并行的空洞卷积相加得到集成空洞卷积核低频特征图再与综合空洞卷积核进行卷积操作得到低频高层语义特征图表示通道数的两倍;

(3-3)对动态空洞卷积模块串行叠加,第一个动态空洞卷积模块的输出作为第二个动态空洞卷积模块的输入;按照(3-2),中频特征图经过两个串行的动态空洞卷积模块得到中频高层语义特征图表示通道数的四倍;高频特征图经过四个串行的动态空洞卷积模块得到高频高层语义特征图表示通道数的八倍;

步骤(4)将多频高层语义特征图输入解码器即上采样卷积模块,获得视频帧的分割掩膜;

步骤(5)迭代训练由编码器、特征频率分离模块、动态空洞卷积模块、解码器组成的视频语义分割模型直至收敛,然后将新视频输入至该模型得到对应的语义分割结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110718738.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top