[发明专利]一种基于深度无监督学习的图像阴影检测方法有效

申请号：	202110874144.X	申请日：	2021-07-30
公开（公告）号：	CN113436115B	公开（公告）日：	2023-09-19
发明（设计）人：	张强;李军;李广和;金国强;王林;张振伟	申请（专利权）人：	西安热工研究院有限公司;西安电子科技大学
主分类号：	G06T5/00	分类号：	G06T5/00;G06T7/00;G06V10/764;G06V10/44;G06V10/82;G06N3/048;G06N3/08;G06N3/0464
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	闵岳峰
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度监督学习图像阴影检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度无监督学习的图像阴影检测方法，其特征在于，包括以下步骤：

(1)使用Z＝4种不同的传统无监督阴影检测模型对无标签的训练样本集D＝{x_n,n＝0,...,N-1}进行预测，生成相应的预测阴影图其中N表示训练样本的数量；

(2)构建初始伪标签生成模块，通过初始伪标签生成模块对所述步骤(1)得到的多个阴影图进行平均融合，得到融合阴影图，并利用全连接条件随机场进一步增强融合阴影图，得到初始伪标签；所述的初始伪标签生成过程表示为：

(21)多个阴影图进行平均融合，得到融合阴影图：

其中：

asm_n表示第n张图像样本的融合阴影图；

表示第z种传统阴影检测模型对第n张图像样本的预测阴影图；

Z表示传统阴影检测模型的数量；

(22)使用全连接条件随机场对融合阴影图进一步增强，得到初始伪标签：

其中：

∈初始伪标签集合Y₀，表示第n张图像样本的初始伪标签；

x_n表示第n张图像样本；

asm_n表示第n张图像样本的融合阴影图；

CRF(*)表示全连接条件随机场操作；

(3)构建课程学习模块，利用步骤(1)得到的多个阴影图构建由简单到复杂的学习课程D_C＝{D_c,c＝0,...,C-1}：

通过计算多个阴影图之间的一致性程度来衡量训练样本场景的复杂度，根据不同复杂度将训练样本集平均划分为R个不同样本复杂度等级的样本子集，利用R＝5个样本子集构建由简单到复杂且样本数量逐渐递增的多阶段课程训练集D_C＝{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合，C＝23表示课程的数量；将课程训练的伪标签定义其中表示第n个样本在第c轮课程训练的伪标签，N_c表示第c轮课程的训练样本量；当c＝0时，Y₀则表示初始伪标签生成模型产生的初始伪标签；具体实现方法如下：

(31)利用多个阴影图之间的一致性评估样本场景的复杂度：

其中：

τ_n表示第n张图像样本场景的复杂度；

BER(*)表示平衡误差率，其最初用于衡量阴影检测算法的性能，通过度量预测结果与真值标签的一致性来衡量算法性能，这里将其用于衡量阴影图之间的一致性；

usm_n表示第n张图像样本的预测阴影图；

Z表示传统阴影检测模型的数量；

更进一步地，公式(3)平衡误差率BER由以下公式表示：

其中：

TP表示正确地检测到的阴影像素数量，即真阳性；

TN表示正确地检测到的非阴影像素数量，即真阴性；

N_p和N_n分别表示阴影区域和非阴影区域的像素数量；

(32)构建递增式多阶段学习课程包括：

(321)将训练样本按照步骤(31)得到的复杂度τ降序排序后，根据不同复杂度将训练样本集平均划分为R个不同复杂度等级的样本子集，即其中每个子集互不包含且含有的样本数量为N/R，N为所有训练样本总量；将由简单到复杂的多阶段课程训练集定义为{D_c,c＝0,...,C-1}，其中D_c表示用于第c轮课程训练的样本集合；

(322)构建递增式多阶段课程训练集，在模型的训练过程中将较为复杂的样本逐渐添加到当前的训练数据集中，以此来增加训练样本复杂度；当c＜R时，将R个不同复杂度的样本子集以递增的方式逐渐加入到课程训练集D_c中，这样D_c中训练样本数量随着课程的进行逐渐增加，即当R≤c＜C时，D_c的样本数量保持不变，即D_c＝D_R-1；递增方式的多阶段课程训练集D_c表示为：

其中：

∪表示样本集合的并集操作；

(4)构建伪标签更新模块，利用伪标签阴影强度作为评估标准，来评估已训练模型的预测阴影图和初始伪标签阴影图的可靠性，进而将可靠性高的阴影图作为新的伪标签；伪标签更新模块：

对于给定训练图像集合{x_n}，及其对应的初始伪标签集合和当前课程迭代训练生成的深度阴影图集合首先计算每一幅图像对应初始标签的阴影图像强度和对应深度伪标签的图像强度

其中：

Mean(*)表示均值操作；

表示逐元素相乘；

第c+1轮课程训练的伪标签表示为：

(5)构建基于轻量级网络结构的阴影检测模型M：

首先，采用小规模的网络模型对输入图像进行特征提取；然后，通过空间感知模块在浅层网络捕获低层级的空间细节信息，有效地精炼阴影预测图的边缘；通过语义感知模块挖掘深层特征中多尺度多感受野的语义上下文信息；通过特征引导融合模块有效地融合空间细节特征和语义上下文特征，将融合输出经过一个预测模块作为模型的预测输出特征；所述的基于轻量级网络结构的阴影检测模型M包含特征提取网络、空间感知模块、语义感知模块和特征引导融合模块：

(51)对于输入图像采用ResNet-18网络进行特征提取，得到5个不同分辨率的层级特征F¹，F²，F³，F⁴，F⁵；

(52)步骤(5)中所述的空间感知模块由两个结构相同的空间注意力模块和卷积融合模块构成，空间感知模块以步骤(1)得到的输入图像的浅层特征F²和F³作为输入，分别通过空间注意力模块获得两个不同层级增强后的空间细节特征和然后将其进行上采样级联，经过卷积块进行特征聚合以加强二者的联系，最后输出含有丰富空间细节信息的特征F_s，空间细节特征F_s表示为：

F_s＝Conv_br(Conv_br(Cat(S(F²)，Up(SA(F³))))) (9)

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

SA(*)表示空间注意力模块；

(53)步骤(5)中所述的语义感知模块由两个结构相同的语义上下文模块和一个卷积块构成，语义感知模块以步骤(1)得到的输入图像的浅层特征F⁴和F⁵作为输入，分别通过语义上下文模块获得两个不同层级的语义上下文特征和然后将其进行上采样级联，经过卷积块进行特征聚合以加强二者的联系，最后输出含有丰富语义上下文信息的特征F_c，语义上下文特征F_c表示为：

F_c＝Conv_br(Conv_br(Cat(GSC(F⁴)，Up(GSC(F⁵)))))

其中：

Conv_br(*)表示有批量归一化和ReLu激活函数的卷积操作；

Cat(*)表示跨通道级联操作；

Up(*)表示上采样操作；

GSC(*)表示全局语义上下文模块；

(54)步骤(5)中所述的特征引导融合模块由一个空间注意力模块和一个通道注意力模块构成，特征引导融合模块以空间细节特征F_s和语义上下文特征F_c为输入，F_s经过空间注意力激活后与F_c相加得到细节信息补充的语义特征F_sc，F_c上采样之后经过通道注意力激活与F_s相加得到语义信息指导的细节特征F_cs，更进一步，将F_sc和F_cs级联并使用一个卷积核为3×3，步长为1，参数为θ_FG的卷积操作C(*，θ_FG)降维后得到融合特征F_p，特征引导融合模块计算过程表示为：

F_cs＝F_s+CA(Up(F_c)) (10)

F_sc＝Up(F_c)+SA(F_s) (11)

F_p＝Conv(Cat(F_sc，F_cs)) (12)

其中：

Cat(*)表示跨通道级联操作；

CA(*)表示通道注意力；

SA(*)表示空间注意力；

Conv(*)表示卷积操作；

Up(*)表示上采样操作；

(54)步骤(5)中所述的预测模块包括一个卷积核为3×3，步长为1，参数为卷积操作和一个卷积核为1×1，步长为1，参数为卷积操作

更进一步地，步骤(52)包括两个结构相同的空间注意力模块和一个卷积块，下面以输入特征F²描述空间注意力模块的具体操作，并对卷积块进行描述：

(521)空间注意力模块以F²为输入，首先，通过两个池化操作分别从通道维度上求取平均池化特征和最大池化特征然后将其级联并通过一个卷积核为3×3，步长为1，参数为卷积操作和Sigmoid激活函数生成空间注意力权重图W∈R^1×H×W，接着对输入特征进行重加权，从而得到增强后的空间细节特征F^2,s，其计算过程表示为：

其中：

Conv(*)表示卷积操作；

Cat(*)表示跨通道级联操作；

Sigmoid(*)表示Sigmoid激活函数操作；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

表示逐元素相乘操作；

(522)卷积块包含了两个卷积操作和两个批量归一化操作和两个ReLu激活函数操作，其中：一个卷积核为3×3，步长为1，参数为卷积操作一个卷积核为3×3，步长为1，参数为卷积操作

更进一步地，步骤(53)所述的语义上下文模块由四个并行的洞卷积操作和四个结构相同的通道注意力模块组成：

(531)四个洞卷积操作分别为：

一个卷积核为1×1，步长为1，洞率为1，参数为的洞卷积操作

一个卷积核为3×3，步长为1，洞率为3，参数为的洞卷积操作

一个卷积核为3×3，步长为1，洞率为6，参数为的洞卷积操作

一个卷积核为3×3，步长为1，洞率为9，参数为的洞卷积操作

(532)全局语义上下文模块具有4个结构相同的通道注意力模块，假设通道注意力模块的输入为F^5,i∈R^C×H×W；当i＝1时，其输入为当i∈{2,3,4}时，其输入为首先通过使用全局平均池化和全局最大池化沿着通道维度聚合特征图的空间信息，生成两个不同的空间上下文特征向量和分别表示平均池化特征和最大池化特征，然后将这两个空间上下文特征向量输入到一个共享权重的卷积块中生成通道注意力图M^m,c∈R^C×1×1和M^a,c∈R^C×1×1，在卷积块处理每个特征向量后，使用元素求和的方式来合并输出特征向量，经过Sigmoid激活函数生成通道注意力权重，接着以逐通道相乘的方式对输入特征进行重加权，即可得到增强后的语义上下文特征通道注意力模块计算过程表示为：

其中：

Sigmoid(*)表示Sigmoid激活函数；

AvgPool(*)表示平均池化操作；

MaxPool(*)表示最大池化操作；

Conv_W(*)表示共享权重的卷积操作；

表示元素相加；

表示逐元素相乘；

(6)训练算法模型：

在步骤(3)构建的多阶段课程训练集上，用步骤(2)得到的初始伪标签对步骤(5)的阴影预测图进行监督学习，通过噪声鲁棒的对称交叉熵损失，对模型进行多阶段训练，在多阶段训练过程中，利用步骤(4)的伪标签更新模块对噪声伪标签进行更新，完成多阶段模型训练，得到最后一阶段的网络模型参数；

(7)预测图像的阴影结果图：

在测试数据集上，利用步骤(6)得到的网络模型参数，对步骤(5)中得到的预测输出特征图，通过sigmoid进行分类计算，进行阴影图像的像素级预测。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。