[发明专利]一种音视频倍速播放方法及装置在审
申请号: | 202111364863.3 | 申请日: | 2021-11-17 |
公开(公告)号: | CN114339443A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 郑吉剑 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | H04N21/6373 | 分类号: | H04N21/6373;H04N21/233;H04N21/2343;H04N21/439;H04N21/4402 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 播放 方法 装置 | ||
本申请实施例公开了一种音视频倍速播放方法及装置,其中方法包括:获取音频帧序列;根据音频帧序列中每个音频帧的音频类型,分别确定每个音频帧的优先级;根据倍速参数和每个音频帧的优先级,从N个音频帧中选择待播放音频帧;获取与音频帧序列对应的视频帧序列;根据音频帧序列从M个视频帧中选择待播放视频帧;播放待播放音频帧和待播放视频帧。本申请可以应用于教育、影视娱乐等多媒体技术应用领域,使用户在对音视频进行倍速播放时,实现无感快进的效果。
技术领域
本发明涉及多媒体技术应用领域,具体涉及一种音视频倍速播放方法及装置。
背景技术
随着互联网技术在多媒体领域的广泛应用,越来越多的用户选择在线观看影片、教学课程或直播互动等。相比于传统线下收看,在线观看具有能够倍速播放、进度调节、暂停重播、集数选择等多方面优势。图1是现有的一种音视频倍速播放方法的流程示意图。鉴于人的眼睛对大于每秒15帧以上的非运动视频敏感度较低,所以在音视频倍速播放的过程中,相较于视频,人们对于音频的倍速播放效果敏感度更高(尤其是在歌曲播放过程中)。因此,在图1所示的方法中,对视频采取随机丢帧处理,音频采取变速不变调算法处理。经典的变速不变调算法包括如图2所示的时域压扩(time-scale modification,TSM)算法以及如图3所示的重叠叠加(overlap-and-add,OLA)算法等。
该方法在对视频随机丢帧处理时容易丢失关键信息,且在对音频处理时,一旦改变帧与帧之间的间隔(也即是改变了帧与帧之间的重叠)会使用户明显感知到音频的快进和结束,并引入噪声,倍速效果不好。
发明内容
本申请提供一种音视频倍速播放方法及装置,可以使用户在对音视频进行倍速播放时,实现无感快进的效果。
本申请提供了一种音视频倍速播放方法,该方法包括:获取音频帧序列,音频帧序列包括N个音频帧,N为正整数;
根据音频帧序列中每个音频帧的音频类型,分别确定音频帧序列中每个音频帧的优先级;
根据倍速参数和音频帧序列中每个音频帧的优先级,从N个音频帧中选择待播放音频帧;
获取与音频帧序列对应的视频帧序列,视频帧序列包括M个视频帧,M为正整数;
根据音频帧序列从M个视频帧中选择待播放视频帧;
播放待播放音频帧和待播放视频帧。
其中,目标音频帧为音频帧序列的一个音频帧,确定目标音频帧的音频类型的方式,包括:提取目标音频帧的音频帧能量;
若音频帧能量不大于第一能量阈值,则确定目标音频帧的音频类型为静音类型;若音频帧能量大于第一能量阈值且不大于第二能量阈值,则确定目标音频帧的音频类型为噪音类型;若音频帧能量大于第二能量阈值则确定目标音频帧的音频类型为非静音非噪声类型。
或者,确定目标音频帧的音频类型的方式,包括:
获取目标音频帧的波形;
对目标音频帧的波形以固定采样率采样,得到T个采样点;
根据T个采样点的采样幅度值,确定目标音频帧的采样矩阵,所述矩阵包括T个采样点的采样幅度值对应的采样向量;
根据特征学习算法和采样矩阵,确定目标音频帧对应的特征向量矩阵;
根据特征向量矩阵和分类器,预测目标音频帧的音频类型为非静音非噪声类型、噪声类型、静音类型的第一概率、第二概率、第三概率;
确定最大概率所对应的音频类型为目标音频帧的音频类型。
本申请提供了一种音视频倍速播放装置,该装置包括:
获取模块,用于获取音频帧序列,音频帧序列包括N个音频帧,N为正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111364863.3/2.html,转载请声明来源钻瓜专利网。