[发明专利]一种基于迁移学习的暴恐音频检测方法有效
申请号: | 201910238365.0 | 申请日: | 2019-03-27 |
公开(公告)号: | CN111755024B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 何小海;胡鑫旭;周欣;熊淑华;王正勇;吴小强;滕奇志 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 音频 检测 方法 | ||
1.一种基于迁移学习的暴恐音频检测方法,其特征在于包括以下步骤:
(1)将TUT音频数据集作为源音频数据,提取源音频数据的对数梅尔频谱特征,接着将该特征输入到预训练网络得到相应的预训练模型,这里的预训练网络指卷积神经网络;
(2)将暴恐音频数据集作为目标音频数据,提取目标音频数据的对数梅尔频谱特征,接着将该特征输入到步骤(1)的预训练模型,微调步骤(1)的网络结构,继续训练预训练模型得到微调后的模型;
(3)在步骤(2)的网络结构中添加辅助网络,并将辅助网络部分的输出特征与输入特征聚合在一起共同输入分类层;
步骤(1)中在提取TUT数据集音频的对数梅尔频谱特征后,将每段音频输入预训练网络进行预训练,其结构采用三层卷积层,输入层是200×500的特征图,第一层卷积层使用200×50大小的卷积核,通道数为100,第二层和第三层卷积层均使用1×1大小的卷积核,通道数分别为100和15,预训练网络结构学习率为0.01,交叉熵作为损失函数,批大小为64,600次迭代,采用全局平均池化层替代全连接层;
步骤(2)中微调步骤(1)的预训练网络结构,具体做法是保留步骤(1)中网络结构的前两层卷积层,第三层采用1×1大小的卷积核,通道数为2,降低学习率,学习率为0.001,交叉熵作为损失函数,批大小为64,减少迭代次数,迭代300次,提取暴恐音频数据集中音频的对数梅尔频谱特征,在步骤(1)中得到的预训练模型上继续训练;
步骤(3)中以步骤(2)模型作为基础网络,将基础网络从第二层卷积层与第三层卷积层之间截断之后,在第二层卷积层和第三层卷积层之间追加了几个卷积层,这部分称为辅助结构,辅助网络部分采用三个连续的滤波器大小为1×50、1×1、1×1的卷积层,将这一部分得到的特征图与输入特征图聚合在一起,共同输入分类层:
F2=ω3(σ(ω2σ(ω1F1))) (1)
F3=concatenate(F1,F2) (2)
其中公式(1)中F1是基础网络的输出,也是辅助网络的输入,F2是辅助网络的输出,σ为激活函数,ωi(i=1,2,3)为辅助结构中三个卷积层权重,采用均匀分布初始化权重,公式(2)表示的意思是采用keras中concatenate函数,实现了原始CNN网络特征图与辅助网络特征图的数据叠加。
2.根据权利要求1所述的方法,其特征在于步骤(1)和步骤(2)中提取音频数据的对数梅尔频谱特征,提取过程包括:预加重、分帧、加窗、快速傅里叶变换、取绝对值、梅尔滤波、取对数,本发明产生对数梅尔频谱图的参数为:音频信号的采样率为44.1kHz,预加重系数为0.97,采用汉明窗进行分帧,快速傅里叶变换窗口长度为50ms,相邻窗之间的距离为20ms,每帧包含2205个采样点,梅尔滤波器的个数为200,最终每个10秒长的音频转化为数组形式,维度为200行、500列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910238365.0/1.html,转载请声明来源钻瓜专利网。