[发明专利]发言人检测系统、发言人检测方法和音频/视频会议系统有效
申请号: | 201210252356.5 | 申请日: | 2012-07-20 |
公开(公告)号: | CN103581608B | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 李茂全 | 申请(专利权)人: | POLYCOM通讯技术(北京)有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N7/14;G10L25/51 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘鹏;汪扬 |
地址: | 100027 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发言人 检测 系统 方法 音频 视频会议系统 | ||
1.一种基于视觉语音活动检测和声学语音活动检测的发言人检测系统,包括:
摄像机,用于获取多个与会者的视频信息;
麦克风,用于获取音频/视频会议的音频信息;
处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;
比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人;
其中所述视觉语音活动为所述多个与会者中每一个的嘴唇运动,且其中:
所述处理模块对所述多个与会者中每一个分别进行独立的视觉语音活动检测,所述处理模块通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积,当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;
所述处理模块通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。
2.根据权利要求1所述的系统,所述系统进一步包括显示模块,用于显示被确定为当前发言人的与会者。
3.根据权利要求2所述的系统,所述系统进一步包括存储模块,用于存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。
4.根据权利要求3所述的系统,其中所述系统在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。
5.一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法,包括:
获取多个与会者的视频信息;
获取音频/视频会议的音频信息;
对所述视频信息中的所述多个与会者的每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者的每一个的视觉语音活动检测信号;并对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;
将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人;
其中所述视觉语音活动为所述多个与会者中每一个的嘴唇运动,且其中:
对所述多个与会者中每一个分别进行独立的视觉语音活动检测,通过嘴唇颜色与脸部颜色的差异来获得嘴唇轮廓,并基于上下唇和上下唇之间的间隙在亮度和/或颜色上的差异来确定嘴唇轮廓范围内该间隙的面积,当该面积在视频的连续帧中的差异超过预设的阈值时,该嘴唇的视觉语音活动检测信号的输出为“1”,否则,该嘴唇的视觉语音活动检测信号的输出为“0”;
通过检测所述音频信息来获得所述声学语音活动检测信号;当音频信息中存在语音时,所述声学语音活动检测信号的输出为“1”,否则,所述声学语音活动检测信号的输出为“0”。
6.根据权利要求5所述的方法,进一步包括使用显示模块显示被确定为当前发言人的与会者。
7.根据权利要求6所述的方法,进一步包括存储所有与会者的身份信息;在该音频/视频会议期间,每当确定出当前发言人时,识别当前发言人并向所述显示模块提供与当前发言人相应的与会者的身份信息。
8.根据权利要求7所述的方法,包括在该音频/视频会议期间,每当确定出当前发言人时,在音频流和/或视频流中标识与当前发言人相应的与会者的身份信息。
9.一种音频/视频会议系统,所述音频/视频会议系统包括如权利要求1-4中任一项所述的基于视觉语音活动检测和声学语音活动检测的发言人检测系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于POLYCOM通讯技术(北京)有限公司,未经POLYCOM通讯技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210252356.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于声突变的高清视频监控系统
- 下一篇:图像显示系统及亮度调整方法