[发明专利]一种基于迁移学习的暴恐音频检测方法有效
申请号: | 201910238365.0 | 申请日: | 2019-03-27 |
公开(公告)号: | CN111755024B | 公开(公告)日: | 2023-02-10 |
发明(设计)人: | 何小海;胡鑫旭;周欣;熊淑华;王正勇;吴小强;滕奇志 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 迁移 学习 音频 检测 方法 | ||
本发明将迁移学习技术引入暴恐音频的判别中。首先采用公开的TUT音频数据集进行预训练,然后从网络和电影中截取暴恐音频片段组成暴恐音频库,保留模型权重并迁移网络在暴恐音频库上继续训练,最后在fine‑tune后的网络中增加网络的层数,添加了一种类似于残差网络的结构使其能够利用更多的音频信息。实验结果表明,迁移学习方法有效解决了在暴恐音频检测研究中音频数据集过小而带来的训练问题,且改进后的网络具有更好的检测率。
技术领域
本发明涉及网络传播的音视频中暴恐音频的检测问题,尤其是涉及一种基于迁移学习的暴恐音频检测方法。
背景技术
随着近年来互联网与电影行业的快速发展,网络上包含的音视频信息与日俱增,为用户所共享的音视频中不乏包含有暴力恐怖音视频,这些暴恐音视频将产生不良的网络环境,对缺乏判断力的未成年人产生负面影响。通常情况下,对网络暴力元素的检测可以使用视频或音频特征,也可以两者相结合,由于音频在处理速度上较快于视频处理速度,对于实时性要求比较高的场景,使用音频特征的检测更具优势。
目前学术界关于暴恐音频的检测方法主要基于传统的机器学习算法,采用SVM分类器或KNN分类器。但由于传统的机器学习算法在训练数据较多的时候,需要计算的核矩阵大小也会增大,将会使训练效率降低,而较少的训练数据又限制了检测效果。于是本发明将卷积神经网络(CNN)应用于暴恐音频的检测中,但暴恐音频来源受限并且数量较少,而CNN往往需要希望有足够多的数据训练,于是本发明将迁移学习技术引入暴恐音频的检测中。
迁移学习的核心是利用已有的知识,去解决不同但相关领域的问题,即以一个环境中学到的知识为基础解决另一个环境中的学习任务,考虑到本发明属于有监督到有监督的类型,于是采用fine-tune的迁移学习方法。在训练方法中fine-tune基于一个预训练好的模型,采用相同的网络结构,使用不同于预训练好模型的数据,根据所要完成任务的要求,调整输出,在预训练好的模型参数上进行再训练,是一种解决小数据库训练的方法。
发明内容
本发明提出了一种基于迁移学习的暴恐音频检测方法,首先预训练网络得到预训练模型,然后使用暴恐音频数据集在预训练模型上继续训练,并改进迁移学习网络结构。
本发明通过以下技术方案来实现上述目的:
(1)提取音频对数梅尔频谱特征;
(2)将TUT音频数据集作为源音频数据,在步骤(1)后,预训练网络得到预训练模型;
(3)将暴恐音频数据集作为目标音频数据,在步骤(1)后,微调步骤(2)的网络结构,继续训练预训练模型得到微调后的模型;
(4)在步骤(3)的网络结构中添加辅助网络,并将辅助网络部分的输出特征与输入特征聚合在一起共同输入分类层。
附图说明
图1基于迁移学习的暴恐音频检测方法总体框架图;
图2添加辅助网络结构的迁移学习方法框图。
具体实施方式
下面结合附图对本发明作进一步说明:
提取音频对数梅尔频谱特征的具体方法如下:
通过预加重、分帧、加窗、快速傅里叶变换、取绝对值、梅尔滤波、取对数提取音频对数梅尔频谱特征。本发明产生对数梅尔频谱图的参数为:音频信号的采样率为44.1kHz,预加重系数为0.97,采用汉明窗进行分帧,快速傅里叶变换窗口长度为50ms,相邻窗之间的距离为20ms,每帧包含2205个采样点,梅尔滤波器的个数为200,最终每个10秒长的音频转化为数组形式,维度为200行、500列。
得到预训练模型的具体方法如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910238365.0/2.html,转载请声明来源钻瓜专利网。