[发明专利]一种基于3D卷积的孪生网络声纹识别方法有效
申请号: | 201911318077.2 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111048097B | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 付翔;梅少辉;杨学军;耿云浩;魏江 | 申请(专利权)人: | 中国人民解放军空军研究院通信与导航研究所;西北工业大学 |
主分类号: | G10L17/00 | 分类号: | G10L17/00;G10L17/04;G10L17/06;G10L17/18;G06N3/04;G06N3/08 |
代理公司: | 西安维赛恩专利代理事务所(普通合伙) 61257 | 代理人: | 刘艳霞 |
地址: | 100085 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 孪生 网络 声纹 识别 方法 | ||
1.一种用于声纹识别的基于3D卷积的孪生网络的训练方法,其特征在于,包括如下步骤:
步骤1.1、构建训练样本数据集:选取多个不同的音频数据,将每一个音频数据转化为一个与之对应的三维张量,所述三维张量即为MFLC特征;多个所述三维张量即组成训练样本数据集;
对所述三维张量进行随机两两配对组合,产生的配对组合共有个,其中:m为三维张量的个数;
步骤1.2、搭建Sia-Net网络;
步骤1.3、将所述步骤1.1中的配对组合输入所述Sia-Net网络,得到与之对应的第一S特征,多个所述第一S特征组成的集合即为样本集合;然后,选择Sia-Net网络中的一个,并固定参数,得训练后的Sia-Net网络;
步骤1.4、构建CNN卷积网络;
步骤1.5、将步骤1.3中的所述第一S特征输入到所述CNN卷积网络;
步骤1.6、提取所述CNN卷积网络的倒数第二层输出的样本的第一D特征,多个所述样本的第一D特征组成的集合即为语音模型匹配数据库;然后,选择去除Softmax层的CNN卷积网络,并固定参数,得训练后的CNN卷积网络;
步骤1.7、即得训练后的用于声纹识别的基于3D卷积的孪生网络;
所述一种用于声纹识别的基于3D卷积的孪生网络包括:
特征提取单元:用于将音频数据转化为三维张量,所述三维张量即为MFLC特征;
Sia-Net网络:用于处理所述的MFLC特征,缩短同一说话人之间数据的特征距离,增大不同说话人之间数据的特征距离;
CNN网络:用于建立每一个说话人的模型库;
预测单元:用于测试音频数据的说话人身份;
所述Sia-Net网络:为两个,每一个所述Sia-Net网络均包括:依次相连接的三个3D卷积层、一个池化层、四个3D卷积层、一个连接层,一个池化层、一个Flatten层和一个全连接层;
所述CNN网络包括依次相连接的三个全连接层和一个Softmax层;
所述距离为欧氏距离。
2.一种基于3D卷积的孪生网络声纹识别方法,采用权利要求1所述的一种用于声纹识别的基于3D卷积的孪生网络的训练方法,其特征在于,包括如下步骤:
步骤2.1、采集音频数据,提取出MFLC特征;
步骤2.2、将所述MFLC特征输入到训练后的基于3D卷积的孪生网络中,由训练后的Sia-Net网络提取第二S特征,将第二S特征输入训练后的所述CNN卷积网络中,提取出第二D特征;
步骤2.3、将所述第二D特征与所述语音模型匹配数据库中的样本的第一D特征进行匹配,确定并输出匹配结果。
3.根据权利要求2所述的一种基于3D卷积的孪生网络声纹识别方法,其特征在于,所述步骤2.1的具体过程为:
对音频数据进行频域变化:对输入的音频数据进行傅里叶变换,得到对应的矩阵数据;
频域滤波:采用MEL滤波器组对所述矩阵数据进行频域滤波,得滤波后的数据;
对滤波后的数据进行对数运算,得MFLC特征。
4.根据权利要求2或3所述的一种基于3D卷积的孪生网络声纹识别方法,其特征在于,所述第二D特征和第一D特征均为余弦距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军空军研究院通信与导航研究所;西北工业大学,未经中国人民解放军空军研究院通信与导航研究所;西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911318077.2/1.html,转载请声明来源钻瓜专利网。