[发明专利]基于2-DenseGRUNet模型的声音事件检测方法在审

申请号：	202111089655.7	申请日：	2021-09-16
公开（公告）号：	CN113744758A	公开（公告）日：	2021-12-03
发明（设计）人：	曹毅;黄子龙;费鸿博;吴伟官;夏宇;周辉	申请（专利权）人：	江南大学
主分类号：	G10L25/24	分类号：	G10L25/24;G10L25/30;G10L25/48;G10L25/51;G06N3/04;G06N3/08;G06K9/62
代理公司：	无锡华源专利商标事务所(普通合伙) 32228	代理人：	崔婕
地址：	214122 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 densegrunet 模型声音事件检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的基于2‑DenseGRUNet模型的声音事件检测方法，以2阶DenseNet网络模型为基础，加入了门控循环单元GRU网络，构建了声音事件检测模型；相对于传统卷积神经网络以及循环神经网络模型，本专利技术方案中的声音事件检测模型结合了2‑DenseNet和GRU的优点，既能更高效利用特征信息将其融合，获取更多有效的特征信息，同时可有效进行时间序列建模。基于本专利技术方案中的声音事件检测模型在检测城市声音事件中，具有更低的平均片段错误率，和更高的F‑Score分数，确保基于本发明方法进行的声音分类结果更加准确。

技术领域

本发明涉及声音检测技术领域，具体为基于2-DenseGRUNet模型的声音事件检测方法。

背景技术

声音携带了城市中大量关于生活场景和物理事件的信息，通过深度学习方法智能感知各个声源自动提取上述信息，在构建智慧城市中具有巨大的潜力和运用前景。在智慧城市中，声音事件检测是对环境声音场景进行识别和语义理解的重要基础。其中，城市声音事件检测研究主要应用于环境感知、工厂设备检测、城市安防、自动驾驶等方面。现有技术中城市声音事件检测技术主要基于MLP、CNN、LSTM网络模型实现。然而，通过综合考虑Precision和Recall的调和值的指标F-score对这3个网络模型进行评价的时候，因为平均片段错误率偏高，导致F-Score的分数偏低，在实际应用中应用范围有限。

发明内容

为了解决现有技术中心城市声音事件检测的平均片段错误率问题，本发明提供的基于2-DenseGRUNet模型的声音事件检测方法，其在处理音频数据时能提取更有效的声学信息，更良好的时序建模能力，使得模型在检测城市声音事件中具有更低的平均片段错误率，更具可用性。

本发明的技术方案是这样的：基于2-DenseGRUNet模型的声音事件检测方法，其包括以下步骤：

S1：采集待处理音频数据，对待处理音频数据的原始音频信号进行预处理，输出音频帧序列；

所述预处理操作包括：采样与量化、预加重处理、加窗；

S2：对所述音频帧序列进行时域和频域分析，提取梅尔频率倒谱系数，输出原始特征向量序列；

S3：重构所述原始特征向量序列的特征信息与标签，输出重构特征处理后的重构特征向量序列；

将所述原始特征向量序列中声音事件的起始时间、结束时间、事件所属类别，转换成所述重构特征向量序列对应的起始帧、结束帧、事件标签；

S4：构建声音事件检测模型，并对模型进行迭代训练，得到训练好的所述声音事件检测模型；

S5：将所述重构特征向量序列经过处理后，输入到训练好的所述声音事件检测模型中进行识别检测，得到所述待处理音频数据的声音事件检测结果；

其特征在于：

所述声音事件检测模型包括：输入层、2阶DenseNet模型、GRU单元；所有的所述GRU单元串联于所述2阶DenseNet模型之后；