[发明专利]一种对偶式语义分割方法在审
申请号: | 201911209672.2 | 申请日: | 2019-12-01 |
公开(公告)号: | CN111126451A | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 路红;任豪;肖涵 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/34;G06K9/46;G06N3/04 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对偶 语义 分割 方法 | ||
本发明属于计算机视觉技术领域,具体为对偶式语义分割方法。本发明方法的步骤为:根据用户输入的图像,进行编码过程,将图像尺度缩小为原图的1/16,然后通过解码器结构,融合编码过程中的细粒度信息,恢复到原图尺度输出分割之后的结果图。本发明提出了一种对偶式的编码器——解码器结构,且能够对图像进行有效的语义分割。
技术领域
本发明属于计算机视觉技术领域,具体涉及对偶式语义分割方法。
背景技术
语义分割是计算机视觉领域的一项基本任务,它将图像中的每一个像素点分类为语义级别的标签。近年来,随着深度学习技术的发展,卷积神经网络在语义分割方面取得了广泛的应用和突破性的进展。对于语义分割任务来说,最终需要得到与输入图像尺寸大小相同的分割图像,且分割的效果十分依赖于全局特征的提取,图像中小的物体及分割的边界常常成为该任务的难点。
通常的卷积神经网络经过多层卷积输出特征图,这种高维特征图中包含了丰富的语义信息,常常在卷积层后接多层全连接层,用于实现图像级别的分类及回归任务。而对于语义分割任务,需要实现像素级别的分类,得到与输入图像大小相同的分割结果。
目前的语义分割算法大多数基于全卷积神经网络进行改进,将全连接层替换为反卷积层,以恢复到原分辨率大小。现有技术的解码器结构设计较为粗糙,且在结构上缺乏对称性,因此在由特征图恢复原图大小得到分割结果的过程中导致了较大的信息损失。这种Encoder-Decoder结构包含:
(1)一个编码器(Encoder)模块,逐步降低特征图的分辨率,提取更高层次的语义信息;
(2)一个解码器(Decoder)模块,由低分辨率、高维信息的特征图逐步恢复到原分辨率大小得到分割图。
为了在多尺度上提取语义特征,现有的工作采用:
Spatial Pyramid Pooling[1](空间金字塔池化):一种多分辨率策略,使得多尺度特征都能转换为固定大小的特征向量进行融合。
Atrous Spatial Pyramid Pooling[2](ASPP,空洞空间金字塔池化):使用了不同扩张率的空洞卷积,实现多尺度特征融合。
结构在多种不同维度上提取特征,并采用空洞卷积等结构进一步增大感受野的面积,以提高分割的准确度。
发明内容
本发明的目的在于提供一种对偶式语义分割方法。
本发明基于DeepLabV3+[3]的结构进行改进,以期达到更好的语义分割效果。DeepLabV3+采用了Encoder-Decoder的结构,Encoder部分以经典的ResNet101[4]为基础,并引入了空洞卷积,扩大了感受野的范围,从而可以在任意分辨率上提取特征,后接一个Atrous Spatial Pyramid Pooling(ASPP)模块,通过采用不同间隔数量的卷积核,在四个不同尺度上并行式地进行多尺度图像特征的提取并融合。得到的高维特征图为原输入图像大小的1/16,作为Decoder模块的输入,与已经提取得到的低维特征融合后进行2次的四倍上采样,最终恢复到原分辨率,得到语义分割的结果。
DeepLabV3+等结构虽然可以取得较为良好的语义分割效果,但是其解码器结构设计较为粗糙,在得到高维特征图之后直接通过两次上采样恢复到原分辨率大小,这一上采样过程会对分割的结果造成较大的影响,上采样过程的插值操作造成了一定的信息损失,会使得图像分割的细节变模糊、质量变差。
本发明针对现有技术解码器部分存在的缺点,旨在改进解码器部分的设计,提高网络结构的对称性,减轻上采样过程对于分割细节质量的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911209672.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一类自组装界面材料
- 下一篇:一种乳液型抗氧化剂生产配方