[发明专利]声纹模型构建方法、声纹识别方法及系统有效
申请号: | 201811351279.2 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109243467B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 聂颖;徐泓洋;郑权;张峰;聂镭 | 申请(专利权)人: | 龙马智声(珠海)科技有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L17/02 |
代理公司: | 北京博讯知识产权代理事务所(特殊普通合伙) 11593 | 代理人: | 柳兴坤 |
地址: | 519000 广东省珠海市香洲区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹模型 神经网络 声纹识别 构建 训练样本库 损失函数 声纹 子网 特征提取模块 特征表达 网络结构 音频文件 矢量化 准确率 聚类 创建 网络 | ||
1.一种声纹模型构建方法,其特征在于,包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括:
从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_1调整所述建立的孪生神经网络。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括:
从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第二损失函数计算损失值loss_2;
其中,Ki为所述M组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_2调整经过所述第一训练的孪生神经网络。
4.根据权利要求1-3任一所述的方法,其特征在于,每一个所述子网中的特征提取模块包括n个带通滤波器,其中第i个带通滤波器的公式为:
g[i,f1,f2]=2f2sinc(2πf2i)-2f1sinc(2πf1i);
其中,i=1,2,…,n,滤波器参数f2、f1的初始化选用梅尔刻度滤波器组的截止频率来作为滤波器的初始频率。
5.一种声纹识别方法,其特征在于,包括:
将待识别的两个音频文件输入利用权利要求1-4任一所述的方法构建的声纹模型中,得到所述待识别的两个音频文件的声纹向量;
计算所述待识别的两个音频文件的声纹向量之间的相似度;
根据所述待识别的两个音频文件的声纹向量之间的相似度判断所述待识别的两个音频文件是否来自同一个人。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智声(珠海)科技有限公司,未经龙马智声(珠海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811351279.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声纹鉴权训练方法及系统
- 下一篇:语音识别方法、装置、电子设备及存储介质