[发明专利]基于迭代挖掘物体共同特征的弱监督图像语义分割方法有效
申请号: | 201810594322.1 | 申请日: | 2018-06-11 |
公开(公告)号: | CN109063723B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 马惠敏;汪翔;李熹 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法,属于模式识别技术领域。该方法在训练阶段,获取训练数据集,构建并训练多标签分类网络,获取每张训练图像对应的物体初始种子区域;然后,获取每张训练图像的超像素区域及区域标签用于训练区域分类网络,得到更新后的超像素区域的区域标签用于训练语义分割网络;经过迭代,当语义分割网络性能收敛,得到训练完毕的语义分割网络;使用阶段,将彩色图像输入训练完毕的语义分割网络,网络输出该图像的语义分割结果。本发明可在只有图像类别标签的情况下,实现可靠的像素级别的语义分割,降低数据标注的时间和人力成本,具有广泛的应用前景。 | ||
搜索关键词: | 基于 挖掘 物体 共同 特征 监督 图像 语义 分割 方法 | ||
【主权项】:
1.一种基于迭代挖掘物体共同特征的弱监督图像语义分割方法,其特征在于,该方法包括以下步骤:1)训练阶段;1‑1)获取训练数据集;获取M张包含C类物体的彩色图像作为训练图像,M大于等于5000,每张训练图像均有对应的类别标签;训练图像及其对应的类别标签构成训练数据集;1‑2)构建并训练多标签分类网络,从多标签分类网络的卷积层获取每张训练图像对应的物体初始种子区域;具体步骤如下:1‑2‑1)构建多标签分类网络;构建一个多标签分类网络,包括依次连接的5层卷积层、一层全局平均池化层、一层全连接层和分类器;该网络的输入为每张训练图像,输出为每张输入图像分别属于C类物体的概率,多标签分类网络选择其中最大概率对应的物体类别作为输入图像对应的分类结果;1‑2‑2)利用步骤1‑1)获取的训练数据集对步骤1‑2‑1)建立的多标签分类网络进行训练,得到训练完毕的多标签分类网络;多标签网络训练时采用随机梯度下降的方法对网络参数进行优化,训练使用Caffe框架,采用的训练参数如下:基础学习率为0.001,并在每经过25000次迭代后,将学习率缩小10倍,总的迭代次数为100000次,动量系数为0.9,每次输入图像32张;1‑2‑3)利用步骤1‑2‑2)得到的训练完毕的多标签分类网络,从多标签分类网络的卷积层得到每张训练图像对应的分布热图,从而获取每张训练图像对应的物体初始种子区域;对于每张训练图像,具体采取以下步骤:1‑2‑3‑1)任意选取一张训练图像,将该训练图像输入训练完毕的多标签分类网络,从多标签分类网络的第五层卷积层得到该图像对应的C张分布热图,每张分布热图分别对应一种物体类别,则第c类物体对应的物体分布热图Hc的值对应第c类物体的概率,取值在0到1之间;Hc可由以下公式计算得到:
其中,设定多标签分类网络第五层卷积层的输出为
其中N为第五层卷积层的特征通道数,则fi为第i个通道的特征;全连接层参数为
其中wi,j为连接全局平均池化层第i个通道与全连接层第j个通道之间的权值;1‑2‑3‑2)采用简单线性迭代聚类算法,对步骤1‑2‑3‑1)选取的训练图像进行超像素分割,获得该图像的超像素区域;1‑2‑3‑3)在步骤1‑2‑3‑1)得到的训练图像对应的每张分布热图中,对每个超像素区域的对应位置的分布热图区域取分布热图值平均值替代原始值,得到平均化后的C张分布热图;1‑2‑3‑4)在平均化后的每张分布热图中选择局部极大值区域以及分布热图的值大于0.8的分布热图区域,作为步骤1‑2‑3‑1)选取的训练图像对应的物体初始种子区域;1‑2‑3‑5)重复步骤1‑2‑3‑1)到步骤1‑2‑3‑4),得到每张训练图像对应的物体初始种子区域;1‑3)利用每张训练图像对应的物体初始种子区域,获取每张训练图像的超像素区域以及对应区域标签;然后构建区域分类网络,利用每张图像的超像素区域以及对应区域标签对该网络进行训练;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域的区域标签;具体步骤如下:1‑3‑1)任意选取一张训练图像,重复步骤1‑2‑3‑2),获得该图像的超像素区域;1‑3‑2)对步骤1‑3‑1)选取的训练图像,根据该图像对应的物体初始种子区域,对该图像的超像素区域赋予对应区域标签:对于该图像中任一个超像素区域,若存在超过80%的像素点位置包含在该图像对应的某类物体的初始种子区域内,则该超像素区域的区域标签即为该类物体的类别标签,否则该超像素区域的区域标签记为背景;1‑3‑3)重复步骤1‑3‑1)至1‑3‑2),得到每张训练图像的超像素区域以及对应区域标签;1‑3‑4)构建区域分类网络,利用每张图像的超像素区域以及对应区域标签,提取图像超像素区域的特征,训练区域分类网络;利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到更新后的超像素区域以及对应的新的区域标签;具体步骤如下:1‑3‑4‑1)利用Fast R‑CNN网络构建区域分类网络;1‑3‑4‑2)对训练图像的每个超像素区域,获取其最小外接矩形,以超像素区域对应的最小外接矩形作为该超像素区域的包围盒;1‑3‑4‑3)利用步骤1‑3‑4‑1)构建的区域分类网络提取每个超像素区域的包围盒的特征,并利用超像素区域的区域标签训练区域分类网络,得到训练完毕的区域分类网络;训练采用随机梯度下降的方法优化参数,使用Caffe框架,采用的训练参数如下:基础学习率为0.001,并在每经过20000次迭代后,将学习率缩小10倍,总的迭代次数为80000次,动量系数为0.9,每次输入图像4张;1‑3‑4‑5)利用训练完毕的区域分类网络,对每张训练图像的超像素区域进行重新识别,得到每张训练图像更新后的超像素区域的区域标签;1‑4)建立语义分割网络并进行迭代训练,利用每次迭代训练后的语义分割网络对每张训练图像进行重新分割,得到每张训练图像的语义分割结果;具体步骤如下:1‑4‑1)建立语义分割网络;语义分割网络以VGG16为基础网络,前面5个卷积层与VGG16相同,并将VGG16中的全连接层更改为全卷积层,即卷积核大小为1×1,输出通道数分别更改为1024,1024和C+1;1‑4‑2)利用步骤1‑3)得到的每张训练图像更新后的超像素区域的区域标签对语义分割网络进行迭代训练;训练采用随机梯度下降的方法优化参数,使用Caffe框架,采用的训练参数如下:基础学习率为0.005,并在每经过2000次迭代后,将学习率缩小10倍,总的迭代次数为10000次,动量系数为0.9,每次输入图像32张;1‑4‑3)利用步骤1‑4‑2)迭代训练后的语义分割网络,对每张训练图像进行重新分割,得到语义分割结果为:每张训练图像对应的一个单通道且大小与原始训练图像相同的图,该图中每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别;其中0代表背景,1到C代表对应的C个物体类别;1‑5)利用步骤1‑4)的每张训练图像的语义分割结果,替代步骤1‑2)的该图像对应的物体初始种子区域,重新对每个超像素区域赋予新的区域标签,并迭代地进行步骤1‑3)到步骤1‑5),直到语义分割网络的性能收敛,保存当前语义分割网络为最终训练完毕的语义分割网络;具体方法如下:对于每个超像素区域,如果分割后的某个物体区域在该超像素区域内的面积超过80%,则将该超像素区域的标签定义为该物体类别,并将区域内的所有像素点对应的标签修改为该类物体对应的标签;如果没有任何一个物体区域面积超过所在超像素区域面积的80%,则将该超像素区域定义为背景,并将超像素区域内的所有像素点对应的标签修改为背景;经过迭代训练,当相邻两次迭代分别得到的语义分割结果的准确率增长小于0.1%或开始出现下降时,则语义分割网络的性能达到收敛,停止迭代,保存当前语义分割网络为最终训练完毕的分割网络;2)使用阶段;2‑1)任意获取一张彩色图像;2‑2)将步骤2‑1)中获取的图像输入步骤1‑5)得到的训练完毕的语义分割网络,网络输出该图像的语义分割结果为一个单通道且大小与步骤2‑1)获取的图像相同的图,语义分割结果中,每个像素点取值为0到C之间的整数,代表了该像素点对应的物体类别,其中0代表背景,1到C代表对应的C个物体类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810594322.1/,转载请声明来源钻瓜专利网。