[发明专利]一种利用生成对抗网络辅助语义分割模型有效
申请号: | 201910154150.0 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109902809B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 郭子豪;王永松;郑云彬;高峰;刘丹 | 申请(专利权)人: | 成都康乔电子有限责任公司;电子科技大学 |
主分类号: | G06T7/10 | 分类号: | G06T7/10;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 生成 对抗 网络 辅助 语义 分割 模型 | ||
本发明创造提供一种利用生成对抗网络辅助语义分割模型,包括基于VGG/ResNet50设计的语义分割生成模型;输入原图,真实分割图以及生成分割图的对抗模型;增加对抗损失项的损失函数;在原有的交叉熵分类损失函数的基础上增加对抗损失项,对抗损失项通过二值交叉熵函数进行定义。本发明主要是通过生成对抗网络结构辅助语义分割模型提升分割精度,利用对抗模型强大的特征学习能力,区分生成分割图与真实分割图的特征区别,并拉近双方所属的数学分布,使得生成模型在训练中逐步学习到像素间关系,增强分割图像中像素的空间连续性,提高分割精度。同时又还避免了一般后处理技术提升分割精度所带来的时间成本。
技术领域
本发明创造属于深度学习语义分割技术领域,尤其是涉及一种利用生成对抗网络辅助语义分割模型。
背景技术
语义分割是计算机视觉领域中的经典难题之一,其目标是对给定图像进行像素级标注。它是图像理解的基石技术之一,在自动驾驶系统,无人机应用,穿戴式设备应用,VR技术等方面具有重要作用。现阶段最先进的语义分割技术均利用卷积神经网络实现,通过卷积强大的特征提取能力和学习能力提取图片中的语义信息和空间信息。然而,无论是全卷积网络结构的分割模型,还是由U-Net 开创的U-Shape结构的分割模型,在模型训练中预测像素标签时每一个像素的预测结果均与其他像素无关。而对于像素间关系的学习则常用各种后处理技术,以增强分割图片的空间连续性。如全连接条件随机DenseCRF,CRFasRNN等。然而这些后处理技术实现困难复杂,运行速度较慢,因此很难运用在视频分割或实时分割中。
发明内容
本发明创造要解决的问题是旨在克服上述现有技术中存在的缺陷,提出一种利用生成对抗网络辅助语义分割模型。
为解决上述技术问题,本发明创造的技术方案是这样实现的:
一种利用生成对抗网络辅助语义分割模型,包括:
基于VGG/ResNet50设计的语义分割生成模型;
通过使用VGG以及ResNet50等经典分类网络作为特征提取器,并将最后数层全连接层转换为卷积层,使得原有的分类网络转变为全卷积网络;通过模型最终层输出的特征图,进行反卷积或双线性插值等方式放大,获得当前输入图片对应的分割图片;
输入原图,真实分割图以及生成分割图的对抗模型;
对抗模型由图片特征提取器、分割特征提取器以及特征融合器组成;使用 VGG/ResNet50等经典分类网络的浅层部分对图片提取的特征,与分割特征提取器提取的分割特征进行整合,并输入到特征融合器中进行判别;
增加对抗损失项的损失函数;
在原有的交叉熵分类损失函数的基础上增加对抗损失项,对抗损失项通过二值交叉熵函数进行定义,当生成模型输出的生成分割图越接近真实分割图,则对抗损失项中生成模型的计算损失会降低,而对抗模型的计算损失会升高。反之亦然。从而提升生成模型的生成效果。
进一步,全连接层的权重通过变形转换为对应全卷积层的卷积核参数。
进一步,第一层反卷积所接收的特征图相较于原图缩放了32倍,通过反卷积放大后与第3个block输出的特征图进行合并并融合成新的特征图,以此类推,对与第2个block输出的特征图融合后得到的新特征图进行8倍的插值放大操作,以获得更为精细的分割效果。
进一步,ResNet50在不增加网络参数量的前提下,将第3和第4两个block 中的标准卷积层替换为空洞卷积层,以此增加特征图的感受野范围。
进一步,空洞卷积核在核中通过插入0的方式来扩大卷积核的尺寸。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都康乔电子有限责任公司;电子科技大学,未经成都康乔电子有限责任公司;电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910154150.0/2.html,转载请声明来源钻瓜专利网。