[发明专利]一种音频爆音检测方法和装置有效
申请号: | 201711283064.7 | 申请日: | 2017-12-07 |
公开(公告)号: | CN109903775B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 高超;马哲 | 申请(专利权)人: | 北京雷石天地电子技术有限公司 |
主分类号: | G10L19/025 | 分类号: | G10L19/025;G10L21/01;G10L25/51 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 王新月 |
地址: | 100101 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种音频爆音检测方法和装置。该方法包括:将音频文件切割为等时长的多个音频切片;将每个音频切片再均分为N个小份,对每个小份进行快速傅里叶变换后,将频域能量值由低到高等分为M个区间,统计其分布在所述M个区间的个数为切片频域值分布个数;根据每个音频切片的所述切片频域值分布个数,通过K‑紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值;当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时,判定该待测音频切片为爆音。该方法和装置精确度高,适用范围广泛,节省大量人力资源。 | ||
搜索关键词: | 一种 音频 检测 方法 装置 | ||
【主权项】:
1.一种音频爆音检测方法,其特征在于,该方法包括:将音频文件切割为等时长的多个音频切片;将每个音频切片再均分为N个小份,对每个小份进行快速傅里叶变换,得到每个音频切片中每个小份的频域能量最高值;将频域能量值由低到高等分为M个区间,统计每个音频切片对应的N个频域能量最高值分布在所述M个区间的个数为切片频域值分布个数;根据每个音频切片的所述切片频域值分布个数,通过K‑紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值;当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时,判定该待测音频切片为爆音。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京雷石天地电子技术有限公司,未经北京雷石天地电子技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711283064.7/,转载请声明来源钻瓜专利网。
- 同类专利
- 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序-202110621690.2
- 吉约姆·福克斯;马库斯·马特拉斯;马蒂亚斯·诺伊辛格;安德烈·尼德迈尔;马库斯·施奈尔 - 弗劳恩霍夫应用研究促进协会
- 2015-07-24 - 2022-01-28 - G10L19/025
- 一种用于处理音频信号(200)的处理器包括:用于从音频信号(200)得出指示从第一不对称窗口(1400)至第二窗口(1402)的改变或指示从第三窗口(1450)至第四不对称窗口(1452)的改变的窗口控制信号(204)的分析器(202),其中第二窗口(1402)短于第一窗口(1400),或其中第三窗口(1450)短于第四窗口(1452);用于使用第一不对称窗口(1400)的第一重叠部分(800)构建第二窗口(1402)的窗口构建器(206),其中窗口构建器(206)用于使用第一不对称窗口的经截短的第一重叠部分确定第二窗口(1402)的第一重叠部分(1000),或其中窗口构建器用于使用第四不对称窗口(1452)的经截短的第二重叠部分(814)计算第三窗口(1450)的第二重叠部分(1330);以及用于应用第一窗口及第二窗口或第三窗口及第四窗口以获得经窗口化的音频信号部分(210)的窗口化器(208)。
- 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序-201580052557.2
- 吉约姆·福克斯;马库斯·马特拉斯;马蒂亚斯·诺伊辛格;安德烈·尼德迈尔;马库斯·施奈尔 - 弗劳恩霍夫应用研究促进协会
- 2015-07-24 - 2021-06-22 - G10L19/025
- 一种用于处理音频信号(200)的处理器包括:用于从音频信号(200)得出指示从第一不对称窗口(1400)至第二窗口(1402)的改变或指示从第三窗口(1450)至第四不对称窗口(1452)的改变的窗口控制信号(204)的分析器(202),其中第二窗口(1402)短于第一窗口(1400),或其中第三窗口(1450)短于第四窗口(1452);用于使用第一不对称窗口(1400)的第一重叠部分(800)构建第二窗口(1402)的窗口构建器(206),其中窗口构建器(206)用于使用第一不对称窗口的经截短的第一重叠部分确定第二窗口(1402)的第一重叠部分(1000),或其中窗口构建器用于使用第四不对称窗口(1452)的经截短的第二重叠部分(814)计算第三窗口(1450)的第二重叠部分(1330);以及用于应用第一窗口及第二窗口或第三窗口及第四窗口以获得经窗口化的音频信号部分(210)的窗口化器(208)。
- 一种音频爆音检测方法和装置-201711283064.7
- 高超;马哲 - 北京雷石天地电子技术有限公司
- 2017-12-07 - 2020-09-25 - G10L19/025
- 本发明实施例提供了一种音频爆音检测方法和装置。该方法包括:将音频文件切割为等时长的多个音频切片;将每个音频切片再均分为N个小份,对每个小份进行快速傅里叶变换后,将频域能量值由低到高等分为M个区间,统计其分布在所述M个区间的个数为切片频域值分布个数;根据每个音频切片的所述切片频域值分布个数,通过K‑紧邻算法计算K个相邻音频切片在每个频域能量值区间的切片频域值分布个数平均值;当与该K个相邻音频切片相邻的待测音频切片在每个频域能量值区间的切片频域值分布个数与所述平均值的差值满足预设条件时,判定该待测音频切片为爆音。该方法和装置精确度高,适用范围广泛,节省大量人力资源。
- 用于对音频信号进行译码的译码器和方法-201811631280.0
- 克里斯蒂安·黑尔姆里希;热雷米·勒孔特;戈兰·马尔科维奇;马库斯·施内尔;贝恩德·埃德勒;斯特凡·罗伊施尔 - 弗劳恩霍夫应用研究促进协会
- 2014-02-20 - 2019-07-23 - G10L19/025
- 一种用于对音频信号进行译码的译码器和方法。所述音频信号包括转换后的窗口化样本的块的序列及相关的窗口信息,窗口信息从至少三个不同的窗口中识别用于块的特定窗口。译码器包括:用于提供频谱值的块的序列的处理器;用于通过使用重叠‑相加处理将频谱值的块的序列转换成时域表示的可控转换器。可控转换器由窗口信息控制,以将由窗口信息表示的窗口应用至对应的块以计算译码后的音频信号。窗口选自包括至少三个窗口的组,三个窗口包括具有第一重叠长度的第一窗口、具有第二重叠长度的第二窗口、以及具有第三重叠长度或不具有重叠的第三窗口,其中第一重叠长度大于第二重叠长度,并且其中第二重叠长度大于第三重叠长度或大于零重叠。
- 用于空间音频对象编码中信号相依缩放变换的编码器、解码器及方法-201380052362.9
- 萨沙·迪施;约尼·鲍卢斯;贝恩德·埃德勒;奥立夫·赫尔穆特;于尔根·赫勒;索尔斯腾·科斯特 - 弗朗霍夫应用科学研究促进协会
- 2013-10-02 - 2018-09-25 - G10L19/025
- 提供一种用于从降混信号产生包括一个或多个音频输出声道的音频输出信号的解码器。降混信号编码一个或多个音频对象信号。解码器包括用于根据一个或多个音频对象信号中的至少一个的信号属性将激活指示设定成激活状态的控制单元(181)。此外,解码器包括用于变换解混信号以获得包括多个第一子带声道的第一变换后的降混的第一分析模块(182)。此外,解码器包括第二分析模块(183),用于当激活指示被设定成激活状态时,通过变换第一子带声道中的至少一个获得第二子带声道而产生第二变换后的降混,其中第二变换后的降混包括尚未被第二分析模块变换的第一子带声道及第二子带声道。此外,解码器包括解混单元(184),其中解混单元(184)用于当激活指示被设定成激活状态时,基于关于一个或多个音频对象信号的参数边信息对第二变换后的降混进行解混以获得音频输出信号,以及当激活指示未被设定成激活状态时,基于关于一个或多个音频对象信号的参数边信息度第一变换后的降混进行解混以获得音频输出信号。此外,提供一种编码器。
- 嘈杂语音信号中的脉冲干扰的单信道抑制-201180073151.4
- T·沃尔夫;C·霍夫曼 - 纽昂斯通讯公司
- 2011-07-07 - 2014-04-30 - G10L19/025
- 本文公开了用于减少信号中的脉冲干扰的方法和装置,无需确定信号中的基音频率,通过搜索高能量分量的频谱寻找沿着频率相关并且从非常低的频率扩展可能直到大约若干kHz的较大的时间导数,来检测脉冲干扰的起始。估计脉冲干扰的能量,并且将这些估计用于抑制脉冲干扰。可选地,利用技术来保护期望的语音信号,避免其由于对脉冲干扰的抑制而被损坏。
- 译码及解码瞬时帧-201180043611.9
- 文卡特什·克里希南;阿南塔帕德玛纳班·阿拉桑尼帕莱·坎迪哈代 - 高通股份有限公司
- 2011-09-09 - 2013-05-08 - G10L19/025
- 描述一种用于译码瞬时帧的电子装置。所述电子装置包括处理器及存储于与所述处理器电子连通的存储器中的可执行指令。所述电子装置获得当前瞬时帧。所述电子装置还基于所述当前瞬时帧而获得残余信号。另外,所述电子装置基于所述残余信号而确定峰值位置集合。所述电子装置进一步至少基于所述峰值位置集合而确定是使用第一译码模式还是第二译码模式来译码所述当前瞬时帧。如果确定所述第一译码模式,则所述电子装置还基于所述第一译码模式而合成激励。如果确定所述第二译码模式,则所述电子装置还基于所述第二译码模式而合成激励。
- 专利分类