[发明专利]用于处理视频和相关音频的方法和装置及检索方法和装置有效
申请号: | 201610058764.5 | 申请日: | 2016-01-28 |
公开(公告)号: | CN105512348B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 许欣然;印奇 | 申请(专利权)人: | 北京旷视科技有限公司;北京迈格威科技有限公司 |
主分类号: | G06F16/40 | 分类号: | G06F16/40 |
代理公司: | 北京睿邦知识产权代理事务所(普通合伙) 11481 | 代理人: | 徐丁峰;张玮 |
地址: | 100190 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的实施例提供了一种用于处理视频和相关音频的方法和装置以及检索方法和装置。用于处理视频和相关音频的方法包括:获取包括一个或多个对象的一个或多个人脸的视频;对视频中的每个视频帧进行人脸检测,以识别一个或多个人脸;获取与所述视频在相同时间段内采集的包括一个或多个对象中的至少部分对象的语音的音频;针对一个或多个人脸中的至少部分人脸中的每一个,确定音频中的、与该人脸相对应的音频部分;将该人脸与对应的音频部分关联起来,其中,至少部分人脸分别属于至少部分对象。根据本发明,通过将对象的人脸与其语音关联起来,可以确定对象的说话时间和说话内容,从而方便用户在后期对该对象的说话内容进行查看和检索。 | ||
搜索关键词: | 用于 处理 视频 相关 音频 方法 装置 检索 | ||
【主权项】:
1.一种用于处理视频和相关音频的方法,包括:获取包括一个或多个对象的一个或多个人脸的视频;对所述视频中的每个视频帧进行人脸检测,以识别所述一个或多个人脸;获取与所述视频在相同时间段内采集的包括所述一个或多个对象中的至少部分对象的语音的音频;针对所述一个或多个人脸中的至少部分人脸中的每一个,确定所述音频中的、与该人脸相对应的音频部分;将该人脸与对应的音频部分关联起来,其中,所述至少部分人脸分别属于所述至少部分对象;其中,在所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分之前,所述方法进一步包括:针对所述至少部分人脸中的每一个,根据该人脸的嘴部动作对所述视频进行分段,以获得与该人脸相对应的初始视频段;根据所述音频中的语音特征对所述音频进行分段,以获得与该人脸相对应的初始音频段;以及根据与该人脸相对应的初始视频段和初始音频段获得所述视频中的、与该人脸相对应的有效视频段和所述音频中的、与该人脸相对应的有效音频段;所述针对所述一个或多个人脸中的至少部分人脸中的每一个确定所述音频中的、与该人脸相对应的音频部分包括:针对所述至少部分人脸中的每一个,确定与该人脸相对应的有效音频段为与该人脸相对应的音频部分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京旷视科技有限公司;北京迈格威科技有限公司,未经北京旷视科技有限公司;北京迈格威科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610058764.5/,转载请声明来源钻瓜专利网。
- 上一篇:具有自动清洗拖布功能的脱水桶
- 下一篇:脱水桶