[发明专利]一种面向多视点视频的语义对象分割方法有效
| 申请号: | 201210222728.X | 申请日: | 2012-06-27 |
| 公开(公告)号: | CN102799646A | 公开(公告)日: | 2012-11-28 |
| 发明(设计)人: | 朱仲杰;王玉儿 | 申请(专利权)人: | 浙江万里学院 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 宁波奥圣专利代理事务所(普通合伙) 33226 | 代理人: | 程晓明 |
| 地址: | 315100*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种面向多视点视频的语义对象分割方法,特点是包括了视觉特征提取、统计建模、参数估计、标记与区域合并四个步骤;优点是专门针对多视点视频,充分利用了多视点视频中颜色、对比度、空间频率运动等综合视觉特征,采用基于统计建模的方法对多视点视频进行语义对象分割,可以获得比较准确的分割结果,能有效降低过分割或欠分割现象,有效提高分割结果的主观视觉感知匹配性。 | ||
| 搜索关键词: | 一种 面向 视点 视频 语义 对象 分割 方法 | ||
【主权项】:
1.一种面向多视点视频的语义对象分割方法,其特征在于包括以下步骤:(1)、视觉特征提取:对图像中的每个像素分别提取像素灰度值、8-邻域灰度均值、对比度敏感度、空间频率、二维空间坐标的特征分量,即映射后的每个像素可以用一个六维的特征矢量来表示,图像中所有像素映射后的矢量全体构成一个六维的特征空间I,表示为I={Pl},Pl表示第l个像素的六维特征矢量,表示为
l=0,1,..,N,其中N表示图像中像素的总个数,xl,yl表示第l个像素的位置坐标,gl表示第l个像素的灰度值,
表示第l个像素的8-邻域灰度均值,fl表示第l个像素空间频率,
表示第l个像素的对比度敏感度,
的计算方法为c f l = 2.6 ( 0.192 + 0.114 f l ) e [ - ( 0.114 f l ) 1.1 ] ; ]]> (2)、统计建模:将特征空间I用有限混合模型表示为
Θ={K,ω,θ}表示模型的参数,其中K表示混合成分的数量,ω={ωi|i=1,…,K}表示K个混合成分的混合系数,θ={θi|i=1,…,K}表示K个混合成分的模型参数,X表示像素的特征矢量分布的随机矢量,Si表示第i个混合成分,θi表示第i个混合成分的模型参数,ωi表示第i个混合成分的混合系数,P(X|Si,θi)表示具有相似视觉特征的第i类像素所对应的混合成分的概率密度函数,将有限混合模型的各类像素所对应的混合成分均视为服从高斯分布,则P(X|Si,θi)可以表示为P ( X | S i , θ i ) = 1 ( 2 π ) d / 2 det ( Σ i ) 1 / 2 exp ( - 1 2 ( X - μ i ) T Σ i - 1 ( X - μ i ) ) , ]]> μi和∑i分别表示X的均值和X的方差矩阵,det(∑i)表示∑i的行列式,d表示X的维数,此时模型的参数为Θ={K,ωi,μi,∑i|i=1,…,K};(3)、参数估计:采用极大似然估计法估计模型的参数,
其中,L(I,Θ)=-∑logP(X |I,Θ)表示目标函数,参数估计的具体步骤如下:a、提取深度图,对深度图采用分水岭算法进行预分割,统计分割区域数量,作为初始K值;b、采用EM算法进行模型的参数估计,迭代进行E步和M步,直到满足收敛条件,在E步,计算第l个像素Xl来自第i个混合成分Si的后验概率:P ( S i , μ i ( k ) , Σ i ( k ) | X l ) = ω i ( k ) P ( X l | S i , μ i ( k ) , Σ i ( k ) ) Σ m = 1 K ω m ( k ) P ( X l | S m , μ m ( k ) , Σ m ( k ) ) ( i = 1 , . . . , K ; l = 1 , . . . . , N ) ]]> 其中,Xl表示第l个像素的特征矢量,k表示迭代次数,
分别表示第k次迭代计算得到的μi、ωi和∑i;在M步,基于E步得到的后验概率,更新模型的参数:ω i ( k + 1 ) = 1 N Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ]]>μ i ( k + 1 ) = Σ j = 1 N X l P ( S i , μ i ( k ) , Σ i ( k ) | X l ) Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ]]>Σ i ( k + 1 ) = Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ( X l - μ i ( k + 1 ) ) ( X l - μ i ( k + 1 ) ) T Σ l = 1 N P ( S i , μ i ( k ) , Σ i ( k ) | X l ) ]]> 其中,
分别表示第k+1次迭代计算得到的μi、ωi和∑i;c、当EM算法收敛后,执行合并操作,具体步骤如下:对任意两个混合成分Si和Sj,计算二者的相似度Mij,计算公式为Mij=τDkl(I,Sij)+(1-τ)Dkl(Si,Sj),1≤i≤K,1≤j≤K,其中τ表示加权系数,设置为τ=0.5,Sij表示Si与Sj的和,表示将混合成分Si与混合成分Sj所各自对应的图像像素进行合并,合并后的像素全体属于同一个混合成分,记为Sij,将上述公式中的Dkl(I,Sij)表示为Dkl(I,Si),Dkl(I,Si)表示第i个混合成分Si与图像的局部概率密度函数P(X|I,θi)之间的Kullback-Leibler距离,用来衡量第i个混合成分Si与有限混合模型全体数据之间的匹配性,Dkl(Si,Sj)表示第i个混合成分Si与第j个混合成分Sj之间的Kullback-Leibler距离,用来衡量两个混合成分Si与Sj所对应的概率分布之间的的差异,其中Dkl(I,Si)与Dkl(Si,Sj)的定义如下:D kl ( I , S i ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | I , θ i ) ]]>D kl ( S i , S j ) = ∫ P ( X | S i , θ i ) log P ( X | S i , θ i ) P ( X | S j , θ j ) ]]> 其中,P(X|I,θi)表示与P(XSi,θi)相对应的图像局部的采样密度,其计算方式如下:P ( X | I , θ i ) = Σ l = 1 N δ ( X - X l ) P ( S i , θ i | X l ) Σ l = 1 N P ( S i , θ i | X l ) ]]> 其中,δ(X-Xl)表示单位脉冲函数,当X-Xl=0时,δ(X-Xl)=1,否则δ(X-Xl)=0;P(Si,θi|X)表示P(X|Si,θi)的后验概率,其计算方法如下:P ( S i , θ i | X ) = ω i P ( X | S i , θ i ) Σ i = 1 K ω i P ( X | S i , θ i ) ]]> 而P(Si,θi|Xl)则表示第l个像素属于第i个混合成分Si的后验概率;根据Mij计算阈值Tm,Tm的计算方法如下:
将计算出的每一个Mij分别与Tm进行比较,如果Mij大于阈值Tm,则将Si与Sj进行合并,认为Si与Sj的数据属于同一个混合成分,此时将混合成分的数量K的值减1,当所有的Mij与Tm进行比较完成后,K值就表示合并后的混合成分的最终数量;(4)、标记与区域合并:模型的参数估计结束后,计算各个像素属于各混合成分类的后验概率,基于后验概率对图像进行标记,即对第l个像素Xl,如果
1≤P≤K,l=0,1,...,N,则将像素Xl标记为第i类,其中p是表示混合成分的数量的一个变量,
表示使ωpP(Sp,θp|Xl)取最大值时p的值,基于标记结果进行区域连通性分析与后处理后将图像分割成一系列均匀区域,对上述分割结果基于运动信息进行进一步的区域合并,具体步骤如下:首先利用帧差法提取二值运动掩模图像,用OB(x,y)表示,OB(x,y)=1表示运动区域,OB(x,y)=0表示静止区域,设Os(s=0,1,…,Q)表示基于统计建模的分割结果,Q表示区域数量,令Ns表示区域Os的大小,定义其运动活动性αsB如下:
(s=0,1,…,Q),比较每个区域与其临域的运动活动性,选取运动活动性之差最小的两个区域进行合并,然后计算合并后的新的区域的运动活动性,然后再次进行领域搜索与合并,直到最后所有领域的运动活动性之差大于实际给定的阈值αT,阈值αT设置为0.5,最后对合并后的对象进行形态后处理运算,即得到最终的语义分割结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江万里学院,未经浙江万里学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210222728.X/,转载请声明来源钻瓜专利网。





