[发明专利]一种基于深度神经网络的多分类语音方法有效
申请号: | 201710801016.6 | 申请日: | 2017-09-07 |
公开(公告)号: | CN107578775B | 公开(公告)日: | 2021-02-12 |
发明(设计)人: | 毛华;彭德中;章毅;曾煜妮 | 申请(专利权)人: | 四川大学 |
主分类号: | G10L15/16 | 分类号: | G10L15/16;G10L15/02;G10L15/06;G10L15/20 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 徐金琼;刘东 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 神经网络 分类 语音 方法 | ||
本发明公开一种基于深度学习的多任务语音分类方法,涉及语音处理技术领域,包括如下步骤:S1:对语音数据进行时频分析操作,得到相应的语谱图。S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征。S3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型。S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。S5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。本发明解决了现有的音频分类方法是针对任务单独处理而忽略语音任务相关性,导致分类效率低的问题。
技术领域
本发明涉及声音信号处理技术领域,尤其涉及一种基于深度神经网络的语音多分类方法。
背景技术
声音为我们提供了很多关于声音来源和周围环境的信息。人类的听觉系统能够分离和识别复杂的声音,如果一个机器可以执行类似的功能(音频分类和识别)是非常有用的,例如在噪音中的语音识别。音频分类是模式识别的一个重要领域,并且已经成功的应用到了很多领域,例如专业教育和娱乐领域。近几年,不同类别的音频分类,例如口音识别,说话人识别,语音情感识别已经有了很多成功的应用。
然而,大部分音频分类方法都是针对任务单独处理,忽略了各任务之间的相互关联。比如,口音识别任务和说话人识别通常被当作单独的两个分类任务。但是事实上,对于同一条语音数据,语音说话人一旦确认,其口音也将确定。于是,我们希望利用这种关系同时地提高两种任务的分类效果。
近几年深度学习引起了人工智能的高潮,由于深度神经网络对数据强大的抽象能力,神经网络学习方法已经成功的应用到语音信号处理等各个领域。在我们的工作中,卷积神经网络用来学习语音特征,提高了在多分类任务中的准确率。
语谱图是一种详细且准确的包含时间和频率信息的语音表达。语谱图的一般形式主要是三个维度:时间,频率和用颜色表示的振幅。
发明内容
本发明的目的在于:为解决现有的音频分类方法是针对任务单独处理而忽略语音任务相关性,导致分类效率低的问题。
本发明的技术方案如下:
一种基于深度学习的多任务语音分类方法,包括如下步骤:
S1:对语音数据进行时频分析操作,得到相应的语谱图。
S2:建立基于卷积神经网络和残差网络的神经网络模型,并将语谱图作为网络输入,提取特征。
S3:将提取的特征输入到多个不同的softmax分类器,从而得到一个初始化的模型。
S4:对语音样本及对应的多个标记进行数值化,并用此数据集训练初始化的模型,得到训练好的网络模型。
S5:将训练好的模型对未标记的语音数据行预测,得到分类的概率值,并且选择较高概率值的类别作为分类结果。
进一步地,所述S2中,卷积神经网络的基本操作包含卷积操作和池化操作,卷积操作可用下述公式表示:
其中,M和N定义了卷积核的大小,i,j表示行数和列数,用来定义像素点的位置,f是卷积核函数,l∈(1,L)表示卷积神经网络的层数,定义了l层的i行j列的特征,定义了l层的n行m的卷积核的参数,b是相应的偏置函数,
公式(1)的含义为:输入特征图的不同部分与卷积核的乘积在卷积核函数的作用下得到新的特征图,上述公式保证了特征提取与位置无关,也就是输入特征图的一部分的统计特性与其他部分是一样的。
卷积神经网络的池化操作可用下述公式表示:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710801016.6/2.html,转载请声明来源钻瓜专利网。