[发明专利]一种音频分类方法、系统、装置及存储介质有效
申请号: | 202111560886.1 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114283841B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 王伟 | 申请(专利权)人: | 天翼爱音乐文化科技有限公司 |
主分类号: | G10L25/21 | 分类号: | G10L25/21;G10L25/51;G10L25/81;G10L25/87 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 郑宏谋 |
地址: | 510055 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 分类 方法 系统 装置 存储 介质 | ||
本发明公开了一种音频分类方法、系统、装置及存储介质,方法包括:获取待分类的第一音频信号,对第一音频信号进行分帧处理得到第二音频信号;对第二音频信号进行端点检测,去除位于第二音频信号的首部和尾部的低能量音频段得到第三音频信号;确定第三音频信号中每一音频帧的短时平均过零率,确定短时平均过零率大于等于预设的第一阈值的第一音频帧数量以及短时平均过零率的波动情况;根据第一音频帧数量和波动情况对第一音频信号进行分类。本发明通过对音频信号进行分帧处理、端点检测并确定音频帧的短时平均过零率,可以对音频信号进行分类,识别出纯音乐音频、纯语音音频以及混合音频,提高了音频分类的准确性,可广泛应用于音频分类技术领域。
技术领域
本发明涉及音频分类技术领域,尤其是一种音频分类方法、系统、装置及存储介质。
背景技术
人耳能听到的所有声音都称之为音频,根据音频的表现形式,可以将音频分为语音、音乐、静音、环境音和噪音,语音和音乐是两种最重要的音频数据类型。
在规模庞大的媒体数据库中,既存在纯语音音频和纯音乐音频,如广播声和钢琴曲,也存在语音和音乐混合的音频,如带有背景音乐的情感朗诵和歌曲。现有技术中,当提取特征参量较多时,对音乐和语音的可以进行准确分类,但对于包含语音和音乐的混合音频的分类效果却较差。
发明内容
本发明的目的在于至少一定程度上解决现有技术中存在的技术问题之一。
为此,本发明实施例的一个目的在于提供一种音频分类方法,该方法通过对音频信号进行分帧处理、端点检测并确定音频帧的短时平均过零率,进而确定短时平均过零率大于等于预设的第一阈值的第一音频帧数量以及短时平均过零率的波动情况,从而可以对音频信号进行分类,识别出纯音乐音频、纯语音音频以及混合音频,提高了音频分类的准确性。
本发明实施例的另一个目的在于提供一种音频分类系统。
为了达到上述技术目的,本发明实施例所采取的技术方案包括:
第一方面,本发明实施例提供了一种音频分类方法,包括以下步骤:
获取待分类的第一音频信号,并对所述第一音频信号进行分帧处理,得到第二音频信号;
对所述第二音频信号进行端点检测,并去除位于所述第二音频信号的首部和尾部的低能量音频段,得到第三音频信号;
确定所述第三音频信号中每一音频帧的短时平均过零率,进而确定短时平均过零率大于等于预设的第一阈值的第一音频帧数量以及所述短时平均过零率的波动情况;
根据所述第一音频帧数量和所述波动情况对所述第一音频信号进行分类。
进一步地,在本发明的一个实施例中,所述对所述第一音频信号进行分帧处理,得到第二音频信号这一步骤,其具体包括:
对所述第一音频信号进行分帧处理,得到多个第二音频帧,相邻的两个所述第二音频帧具有交叠部分;
根据多个所述第二音频帧确定第二音频信号。
进一步地,在本发明的一个实施例中,所述对所述第二音频信号进行端点检测,并去除位于所述第二音频信号的首部和尾部的低能量音频段,得到第三音频信号这一步骤,其具体包括:
确定位于所述第二音频信号首部的若干个所述第二音频帧的第一短时帧能量和位于所述第二音频信号尾部的若干个所述第二音频帧的第二短时帧能量;
将所述第一短时帧能量和所述第二短时帧能量与预设的第二阈值进行比较;
当所述第一短时帧能量小于所述第二阈值,去除所述第一短时帧能量对应的第二音频帧,当所述第二短时帧能量小于所述第二阈值,去除所述第二短时帧能量对应的第二音频帧,得到第三音频信号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼爱音乐文化科技有限公司,未经天翼爱音乐文化科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111560886.1/2.html,转载请声明来源钻瓜专利网。