[发明专利]一种音频爆音检测方法和装置有效
申请号: | 201711283064.7 | 申请日: | 2017-12-07 |
公开(公告)号: | CN109903775B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 高超;马哲 | 申请(专利权)人: | 北京雷石天地电子技术有限公司 |
主分类号: | G10L19/025 | 分类号: | G10L19/025;G10L21/01;G10L25/51 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 王新月 |
地址: | 100101 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音频 检测 方法 装置 | ||
本发明实施例提供了一种音频爆音检测方法和装置。该方法包括:将音频文件切割为等时长的多个音频切片;将每个音频切片再均分为N个小份,对每个小份进行快速傅里叶变换后,将频域能量值由低到高等分为M个区间,统计其分布在所述M个区间的个数为切片频域值分布个数;根据每个音频切片的所述切片频域值分布个数,通过K‑紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值;当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时,判定该待测音频切片为爆音。该方法和装置精确度高,适用范围广泛,节省大量人力资源。
技术领域
本发明涉及音频处理领域,特别涉及一种音频爆音检测方法和装置。
背景技术
随着互联网技术的发展,现代社会音频文件丰富了人们的娱乐生活,但在音频文件中可能存在爆音,影响用户体验。所谓爆音,是指听感上的一个突兀的点,产生爆音的原因有很多,一般出现在音源,可能是软件抓取CD音轨时出现错误或者音频文件损坏。当信号突然断开或者引入其他强干扰时,都可能出现爆音。
现有技术中识别歌曲的爆音有多种算法,在实现本发明过程中,申请人发现现有技术中至少存在如下问题:通过算法对音频文件中的爆音进行筛选后存在误差,并且对于歌曲中的真正爆音通常需要人力的二次识别以提高准确度,费事费力,耗费大量资源。
发明内容
本发明实施例提供一种音频爆音检测方法和装置,该发明基于频域能量的优先级队列算法,可以达到自动识别卡拉OK歌曲中的爆音的目的,克服上述现有的歌曲爆音识别精确度低,需要人力二次识别的缺陷。
一方面,本发明实施例提供了一种音频爆音检测的方法,该方法包括:
将音频文件切割为等时长的多个音频切片;
将每个音频切片再均分为N个小份,对每个小份进行快速傅里叶变换,得到每个音频切片中每个小份的频域能量最高值;
将频域能量值由低到高等分为M个区间,统计每个音频切片对应的N个频域能量最高值分布在所述M个区间的个数为切片频域值分布个数;
根据每个音频切片的所述切片频域值分布个数,通过K-最紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值;
当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时,判定该待测音频切片为爆音。
可选的,所述当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时,判定该待测音频切片为爆音,包括:
分别计算所述M个区间中,与该K个相邻音频切片相邻的待测音频切片的频域能量最高值个数和在该区间的所述平均值的差值;
统计所述差值超过预设个数阈值的区间数;
当所述区间数大于R时判定该待测音频切片为爆音;其中,R∈(1,M)。
可选的,计算K个相邻切片的频域能量值分布数据的平均值,包括:
随机挑选音频文件的连续K个切片在各区间的分布数据相加,得到第一计算结果;
将所述第一计算结果除以所述切片的数量K,得到的结果作为该区间的平均值。
可选的,所述将频域能量值由低到高等分为M个区间,包括:
获取所述各小份的频域能量值的最高值;
根据所述最高值设定区间上限,并将下限设为0;将其等分为M个区间。
可选的,其特征在于:R=M/2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京雷石天地电子技术有限公司,未经北京雷石天地电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711283064.7/2.html,转载请声明来源钻瓜专利网。