[发明专利]一种基于卷积神经网络的图像分割方法在审
申请号: | 202110543386.0 | 申请日: | 2021-05-19 |
公开(公告)号: | CN113192087A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 刘博;张雷 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06T7/11 | 分类号: | G06T7/11;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 图像 分割 方法 | ||
一种基于卷积神经网络的图像语义分割方法,涉及图像领域。该方法以DeepLabv3+为主要模型,针对图像的特点,在编码器部分,将原始主干网络ResNet101替换为ResNet152,调整扩张卷积空间金字塔池化模块的扩张率。在解码器部分,加入特征金字塔等多尺度融合模块,以及注意力机制等模块。最后在制作数据集上进行实验证明方法的有效性。实验结果表明,该方法在测试集上平均交并比达到53.8%,比原始模型精度提高6%,取得了较好的分割结果。
技术领域
本发明属于计算机视觉技术领域,尤其涉及到一些卷积神经网络、图像语义分割方法等。
背景技术
图像的语义分割一直是计算机视觉领域的研究重点,而深度学习是近阶段人工智能方向飞速发展的热点,因此基于深度学习的语义分割的应用随之成为全世界研究人员的热点关注问题。自动驾驶的发展、医疗图像诊断技术的进步、地质图像勘测技术的进步与语义分割的发展密不可分,尤其是基于深度学习的语义分割技术。虽然像聚类这样的无监督方法可以用于分割,但其结果不一定是有语义的。这些方法无法对它们训练的类进行细分,但是在搜索区域界限方面更加擅长。与图像分类或目标检测相比,语义分割使我们对图像有更加细致的了解。传统经典分类算法在面对分类问题和海量数据时,浅层特征学习方法的泛化能力和复杂函数的表示能力受到制约。深度学习通过信息分层处理机制,构建含有多个隐藏层的深度模型,从海量的数据中逐级从低到高的自动抽取层次特征表达,从而建立其底层到高层的映射关系。
随着卷积神经网络的发展,对图像语义分割任务产生了革命性的影响,为提高分辨率图像分割与分类提供了新的思路。Long等人提出的FCN将卷积神经网络用于语义分割任务的领军者。Ronneberger等人提出的U-Net最早用于医学图像分割任务,其最大优点是结构简单,可以使用非常少的样本进行训练,并且网络训练速度很快。Chen等人提出不同版本的DeepLab。DeepLabv1使用不同采样率的空洞卷积扩展感受野,获取更多的上下文信息,并使用全连接条件随机场对DCNN的粗分割结果作优化;DeepLabv2提出空洞空间金字塔池化方法(ASPP),其关键是使用不同采样率的空洞卷积作并行采样;DeepLabv3继续改进ASPP,在ASPP中新增加1*1卷积和全局平均池化(GAP)。
随着大规模、真实世界数据集的迅速增加,长尾问题越来越普遍(即少数类占了大部分数据,而大多数类的代表性不足)。解决长尾问题主要采用类别重新平衡策略,根据每个类的观察数量重新采样和重新加权,缓解训练数据的极端不平衡。类别重平衡大致可以划分为两大类,重采样和重赋值。这些方法通过样本重采样(数据增强,扩充少样本类别),对损失重新赋权重调整网络的训练,使得样本分布与测试中的样本分布更加接近。因此,重平衡策略能直接影响深度学习分类器的权重更新,促进分类学习,从而在存在长尾问题的数据集中获得识别准确率的提升。
本专利针对分割精度较低问题,并结合城市景观图像特点在语义分割模型DeepLabv3+采取以下改进,在编码器部分将原始主干网络ResNet101替换为ResNet152,调整扩张卷积空间金字塔池化模块的扩张率,来提高模型的分割精度。在解码器部分加入特征金字塔等多尺度融合模块以及注意力机制等模块。应用在包含多种城市景观类型的高分辨率图像数据集上来分割不同区域。通过训练得到有效的分割模型,并进行实验以验证其效果。
发明内容
本发明要解决的技术问题是针对某些图像分割算法在复杂场景下精度不高等问题,提出一种基于卷积神经网络的图像分割方法,用于提高图像在复杂场景的分割精度。实验结果表明,改进后的方法在测试集上平均交并比达到53.8%,相比原始模型提升了6%,能够得到效果更好的分割结果。
为个实现上述目的,本发明采用以下技术方案:
为取得更好的分割效果,针对制作数据集中存在的长尾问题和城市景观图像区域间尺寸变化幅度小的特点,在Deeplabv3+模型上做出以下改进:1.在编码器部分调整空洞空间金字塔的卷积率。2.在解码器部分添加特征金字塔作为浅层特征的融合分支。3.在解码器部分加入注意力机制模块。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110543386.0/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序