[发明专利]发言人检测系统、发言人检测方法和音频/视频会议系统有效
申请号: | 201210252356.5 | 申请日: | 2012-07-20 |
公开(公告)号: | CN103581608B | 公开(公告)日: | 2019-02-01 |
发明(设计)人: | 李茂全 | 申请(专利权)人: | POLYCOM通讯技术(北京)有限公司 |
主分类号: | H04N7/15 | 分类号: | H04N7/15;H04N7/14;G10L25/51 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 刘鹏;汪扬 |
地址: | 100027 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 发言人 检测 系统 方法 音频 视频会议系统 | ||
一种发言人检测系统可以包括:摄像机,用于获取多个与会者的视频信息;麦克风,用于获取音频/视频会议的音频信息;处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。本发明还描述了一种相应的发言人检测方法以及一种合并了该发言人检测系统的音频/视频会议系统。
技术领域
本发明公开了一种用于在音频/视频会议中检测发言人的系统、方法以及一种音频/视频会议系统。
背景技术
在现代的商业组织和家庭中,音频/视频会议已经变得非常普遍。在音频/视频会议中,当发言人在讲话时,人们往往希望获得发言人的图像和/或身份信息。尤其对于视频会议而言,在会场上突出显示发言人的视频信息,能够使得视频会议具有与面对面会议相似的现场感受。
当前流行的视频会议系统通常首先通过声音定位找出发言人的方向,然后从图像中检测离该方向最近的人脸,如果找到人的面部,就将其视为发言人的面部。
发明内容
然而,上述的现有技术具有两个重要的缺点:
首先,被会议室的桌子、墙壁、天花板等反射的声学回声往往会干扰声音定位并降低其准确度。
其次,当会议室中相对拥挤时,有时会有许多面部靠近声音的方向,仅通过面部识别等技术将无法准确确认哪个面部属于真正的发言人。
因此,希望提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测系统。也希望提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法。还希望将这些系统合并到音频/视频会议系统中。
根据本发明的第一方面,所述发言人检测系统可以包括:摄像机,用于获取多个与会者的视频信息;麦克风,用于获取音频/视频会议的音频信息;处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
本发明的另一个目标是提供一种基于视觉语音活动检测和声学语音活动检测的发言人检测方法。
根据本发明的第二方面,所述发言人检测方法包括:获取多个与会者的视频信息;获取音频/视频会议的音频信息;对所述视频信息中的所述多个与会者的每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者的每一个的视觉语音活动检测信号;并对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
本发明的又一目标是提供一种音频/视频会议系统。
根据本发明的第三方面,所述音频/视频会议系统包括:摄像机,用于获取多个与会者的视频信息;麦克风,用于获取音频/视频会议的音频信息;处理模块,配置为对所述视频信息中的所述多个与会者中每一个的视觉语音活动分别进行检测,以生成针对所述多个与会者中每一个的视觉语音活动检测信号;并配置为对所述音频信息中的声学语音活动进行检测,以生成声学语音活动检测信号;比较模块,用于将所述视觉语音活动检测信号分别与所述声学语音活动检测信号进行比较,并将与所述声学语音活动检测信号具有最大相关度的视觉语音活动检测信号所对应的与会者确定为当前发言人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于POLYCOM通讯技术(北京)有限公司,未经POLYCOM通讯技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210252356.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于声突变的高清视频监控系统
- 下一篇:图像显示系统及亮度调整方法