[发明专利]基于深度残差网络和注意力机制的声纹识别方法及装置在审
申请号: | 202210304443.4 | 申请日: | 2022-03-17 |
公开(公告)号: | CN114678030A | 公开(公告)日: | 2022-06-28 |
发明(设计)人: | 钱鹰;陈仕杰;杨世利;陈雪;刘歆;柯礼灵;熊炜 | 申请(专利权)人: | 重庆邮电大学;重庆市住房公积金管理中心 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04;G10L17/14;G10L17/18;G10L25/24;G06N3/04;G06N3/08 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 网络 注意力 机制 声纹 识别 方法 装置 | ||
1.一种基于深度残差网络和注意力机制的声纹识别方法,其特征在于:包括以下步骤:
S1:对采集到的音频数据进行预处理,得到能够模拟人耳特性的梅尔频率倒谱系数MFCC特征X;
S2:构建帧级注意力模块FAM,将步骤S1得到的MFCC特征X经过帧级注意力模块对每帧的重要性进行加权运算,得到加权后的MFCC特征
S3:构建声纹识别网络并进行声纹识别;引入MobileNet的设计思想,将普通卷积替换为深度可分离卷积以降低网络参数量;在ResNet50的每一个layer后加入通道域注意力模块SE Block建模各个特征通道的重要程度,针对不同的说话人增强或抑制不同的通道,最后将特征输入网络中的分类器进行分类,实现声纹识别。
2.根据权利要求1所述的基于深度残差网络和注意力机制的声纹识别方法,其特征在于:所述步骤S1包括如下步骤:
S11:将原始音频数据根据预设的固定长度进行分帧;
S12:对分帧以后的数据进行快速傅里叶变换,将每一帧的波形特征转换成频谱;
S13:将频谱数据转换为MFCC特征,即得到每一帧语音的D维特征向量,原始语音数据被分为N帧,则得到N*D的二维矩阵X。
3.根据权利要求1所述的基于深度残差网络和注意力机制的声纹识别方法,其特征在于:所述步骤S2包括如下步骤:
所述帧级注意力模块FAM由平均池化层和瓶颈层构成;所述平均池化层用于获得MFCC特征每一帧的全局信息嵌入,也就是求每一帧Fn,n∈{1,N}的特征向量的平均值得到N维向量A,公式如下所示:
所述瓶颈层用于生成不同帧的权重,公式如下所示:
Y=Softmax(W2δ(W1A))
该过程由两层全连接层实现,其中第一全连接层W1将向量A压缩为N/r维向量减少参数量,之后用Relu激活函数δ增加网络的非线性表达能力;第二全连接层W2将向量A恢复为N维,之后经过Softmax激活函数得到N维权重向量Y;将权重向量Y的每一元素分别与原矩阵X的每一行相乘得到新的加权特征图公式如下所示:
式中Xn为原矩阵X的第n行向量,Yn为权重向量Y的第n个元素。
4.根据权利要求1所述的基于深度残差网络和注意力机制的声纹识别方法,其特征在于:所述步骤S3包括如下步骤:
S31:利用BlockA代替ResNet50的残差块;
S32:将带有通道域注意力机制的SE Block嵌入每一BlockA的尾部构成声纹识别网络基本组成模块BlockB;
S33:在ResNet50原有全连接层的后面加上一层Relu激活函数以及一层全连接层构成新的分类器,完成声纹识别网络的构建。
5.根据权利要求4所述的基于深度残差网络和注意力机制的声纹识别方法,其特征在于:步骤S31中所述BlockA采用残差连接结构,其中残差分支采用3*3的深度卷积提取特征,所述3*3卷积核后面加上用于控制输出特征图维度的1*1点向卷积构成可降低网络参数量的深度可分离卷积模块,每一卷积核后跟上标准归一化操作和Relu激活函数增加网络非线性表达能力,最后将残差分支得到的特征图与当前层特征图进行残差连接。
6.根据权利要求4所述的基于深度残差网络和注意力机制的声纹识别方法,其特征在于:步骤S32中所述带有通道域注意力机制的SE Block通过对特征通道间的重要性进行建模,把重要的特征进行强化来提升准确率,即通过学习来自动获取到每个特征通道的重要程度,然后依照这一结果去提升有用的特征并抑制对当前任务用处不大的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学;重庆市住房公积金管理中心,未经重庆邮电大学;重庆市住房公积金管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210304443.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种风力发电机组塔筒螺栓预紧装置
- 下一篇:一种智慧园区远程监控方法及系统