[发明专利]一种混合音频下的大熊猫声音事件检测方法及系统有效
申请号: | 202110385930.3 | 申请日: | 2021-04-12 |
公开(公告)号: | CN112802484B | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 赵启军;汤茂林;陈鹏;侯蓉;闫蔚然;郭龙银;张艳秋;刘鹏;张珊 | 申请(专利权)人: | 四川大学;成都大熊猫繁育研究基地 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/18;G10L25/18 |
代理公司: | 成都四合天行知识产权代理有限公司 51274 | 代理人: | 郭受刚 |
地址: | 610000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 混合 音频 大熊猫 声音 事件 检测 方法 系统 | ||
1.一种混合音频下的大熊猫声音事件检测方法,其特征在于,包括以下步骤:
数据采集,采集被测环境的音频数据;
数据处理,对所述音频数据提取对数梅尔频谱,再将所述对数梅尔频谱标准化;
将处理后的所述音频数据分为开发集数据和测试集数据;
搭建多尺度注意力卷积循环神经网络;
通过所述开发集数据对所述多尺度注意力卷积循环神经网络进行训练;
通过训练完成的所述多尺度注意力卷积循环神经网络对所述测试集数据进行预测,并生成预测结果;
所述多尺度注意力卷积循环神经网络的结构包括:多尺度注意力卷积模块、双向GRU模块、分类器模块;
所述多尺度注意力卷积模块包括一个基础卷积模块、若干个多尺度注意力卷积单元以及若干个平均池化层。
2.根据权利要求1所述的一种混合音频下的大熊猫声音事件检测方法,其特征在于,所述对所述音频数据提取对数梅尔频谱的具体步骤包括:
短时傅里叶变换,对所述音频数据按照相同的采样窗口进行分帧,并进行加窗处理,然后进行快速傅里叶变换,将信号从时域变换为频域;
梅尔滤波,首先通过梅尔函数将普通频率标度转换为梅尔频率标度,再利用梅尔滤波器对梅尔频率进行滤波得到梅尔频谱,最后进行对数运算得到对数梅尔频谱。
3.根据权利要求1所述的一种混合音频下的大熊猫声音事件检测方法,其特征在于,所述将所述对数梅尔频谱标准化的具体步骤包括:
先分别计算对数梅尔频谱在梅尔通道方向上的平均值、对数梅尔频谱在梅尔通道方向上的均方差;
计算每一帧对数梅尔频谱与所述平均值的差值,再除以所述均方差,得到标准化对数梅尔频谱。
4.根据权利要求1所述的一种混合音频下的大熊猫声音事件检测方法,其特征在于:所述基础卷积模块包括一个卷积层、ReLU激活函数以及批量归一化层。
5.根据权利要求1所述的一种混合音频下的大熊猫声音事件检测方法,其特征在于:所述双向GRU模块包括两个双向GRU层。
6.根据权利要求1所述的一种混合音频下的大熊猫声音事件检测方法,其特征在于:所述分类器模块包括一个Dropout层、一个全连接层和一个Sigmoid输出层。
7.根据权利要求1所述的一种混合音频下的大熊猫声音事件检测方法,其特征在于,所述通过训练完成的所述多尺度注意力卷积循环神经网络对所述测试集数据进行检测或预测,并生成检测或预测结果,具体步骤包括:
将处理后的测试集数据输入到训练完成的所述多尺度注意力卷积循环神经网络中进行前向传播,计算并得到每一帧中出现大熊猫叫声的概率值;
对所述概率值进行二值化后,再经过二值化后的所述概率值进行中值滤波,并通过平滑预测得出预测结果;
还包括计算基于音频帧层面和音频段层面的声音事件检测精度。
8.一种混合音频下的大熊猫声音事件检测系统,其特征在于,基于权利要求1-7其中任一项所述的一种混合音频下的大熊猫声音事件检测方法,包括:数据采集模块、数据处理模块、神经网络模块,其中:
所述数据采集模块,用于采集音频数据,并将所述音频数据发送给所述数据处理模块;
所述数据处理模块,用于接受并处理所述音频数据,并得到经过处理的开发集数据和测试集数据;
所述神经网络模块为多尺度注意力卷积循环神经网络,用于根据所述开发集数据和测试集数据进行预测,并生成预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学;成都大熊猫繁育研究基地,未经四川大学;成都大熊猫繁育研究基地许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110385930.3/1.html,转载请声明来源钻瓜专利网。