[发明专利]一种多模态融合的采访镜头检测方法无效
申请号: | 200710099725.0 | 申请日: | 2007-05-29 |
公开(公告)号: | CN101316327A | 公开(公告)日: | 2008-12-03 |
发明(设计)人: | 刘安安;李锦涛;张勇东;唐胜;宋砚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04N5/262 | 分类号: | H04N5/262 |
代理公司: | 北京泛华伟业知识产权代理有限公司 | 代理人: | 高存秀 |
地址: | 100080北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多模态 融合 采访 镜头 检测 方法 | ||
1.一种多模态融合的采访镜头检测方法,按照以下步骤顺序执行:
步骤10)、输入未编辑的原始视频,对视频进行预处理,得到原始视频的视频流和音频流,以及视频流中的镜头、各个镜头的关键帧;
步骤20)、根据所述的音频流建立人声模型,并依赖所述的人声模型判断镜头是否为包含人声的镜头;
步骤30)、根据所述的视频流建立人脸模型,并依赖所述的人脸模型判断镜头是否为包含人脸的镜头;
步骤40)、根据步骤20)的人声检测结果和步骤30)的人脸检测结果建立采访模型,并在所述的采访模型中融合人声检测结果和人脸检测结果,根据融合的结果判断镜头是否为采访镜头,如果一个镜头中同时包含人声和人脸信息,则所述镜头为采访镜头。
2.根据权利要求1所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤10)中,所述对输入的原始视频的预处理具体包括以下步骤:
步骤11)、将输入视频分为视频流和音频流;
步骤12)、对所述视频流进行镜头边界检测和关键帧提取。
3.根据权利要求1所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤20)中,所述人声模型的建立具体包括以下步骤:
步骤21)、从音频流中提取基于帧的短时音频特征;
步骤22)、根据音频内容,将各音频短时帧对应的音频特征标注为人声类或非人声类,建立训练数据集和测试数据集,并将未编辑原始视频中的音频流数据添加到所述训练数据集或测试数据集;
步骤23)、通过支持向量机分类器和所述训练数据集建立人声模型;
步骤24)、通过有限状态机对所述测试数据集中音频短时帧的分类结果做平滑,得到音频短时帧类型的检测结果;
步骤25)、根据所述检测结果,计算一个镜头中人声类型的音频短时帧占总帧数的比例,并判断所得到的比例是否大于第三阈值,如果大于,则所在镜头为包含人声的镜头。
4.根据权利要求3所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤21)中,所述的短时音频特征为短时音频能量、短时过零率、美尔倒谱系数、子带能量和子带能量比。
5.根据权利要求3所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤25)中,所述的第三阈值为0.7。
6.根据权利要求1所述的多模态融合的采访镜头检测方法,其特征在于,所述的步骤30)具体包括以下步骤:
步骤31)、建立人脸模型,对所述步骤10)所得到的各镜头关键帧是否包含人脸概念进行判断,并记录包含人脸概念的关键帧;
步骤32)、计算一个镜头中包含人脸概念的关键帧占该镜头中总关键帧的比例;
步骤33)、根据所述比例,判断镜头是否为包含人脸的镜头。
7.根据权利要求6所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤31)中,通过AAM方法建立人脸模型。
8.根据权利要求6所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤32)中,对所得到的比例进行优化,所述优化的具体实现如下:
步骤32-1)、计算用于表示关键帧重要性的聚合度因子,并将该因子与所述步骤32)中所得到的比例相乘,得到一个新的比例,用第三比例Ratio3表示;其中,所述聚合度因子表示一个关键帧对关键帧所在镜头的表征能力;
步骤32-2)、计算用于表示镜头重要性的时间因子,并将该因子与所述步骤32)中所得到的比例相乘,得到又一个新的比例,用第四比例Ratio4表示;所述时间因子表示镜头长度占整个视频长度的比例。
9.根据权利要求8所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤32-1)中,在计算所述聚合度因子时,将镜头的总帧数除以镜头的关键帧数。
10.根据权利要求8所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤32-2)中,在计算所述时间因子时,将镜头的时间除以镜头所在原始视频的时间。
11.根据权利要求8所述的多模态融合的采访镜头检测方法,其特征在于,在所述的步骤33)中,用Ratio2表示步骤32)所得到的比例,则判断镜头是否为包含人脸概念的镜头的具体操作如下:
如果Ratio2>Th4,则决策值DV1=1,否则DV1=0;
如果Ratio3>Th5,则决策值DV2=1,否则DV2=0;
如果Ratio4>Th6,则决策值DV3=1,否则DV3=0;
如果DV1‖DV2‖DV3=1,则该镜头包含人脸信息,否则不包含人脸信息;
其中,“‖”表示“或”操作,第四阈值Th4为0.2,第五阈值Th5为0.3,第六阈值Th6为0.3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200710099725.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:法式气嘴专用的充气嘴
- 下一篇:在线测定样品中生化需氧量的装置及方法