[发明专利]声纹模型构建方法、声纹识别方法及系统有效
申请号: | 201811351279.2 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109243467B | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 聂颖;徐泓洋;郑权;张峰;聂镭 | 申请(专利权)人: | 龙马智声(珠海)科技有限公司 |
主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/18;G10L17/02 |
代理公司: | 北京博讯知识产权代理事务所(特殊普通合伙) 11593 | 代理人: | 柳兴坤 |
地址: | 519000 广东省珠海市香洲区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声纹模型 神经网络 声纹识别 构建 训练样本库 损失函数 声纹 子网 特征提取模块 特征表达 网络结构 音频文件 矢量化 准确率 聚类 创建 网络 | ||
本发明公开了一种声纹模型构建方法、声纹识别方法及系统,该声纹模型构建方法包括:步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块;步骤S2:利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练;步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型。本发明采用孪生网络的思想对声纹模型的网络结构进行设计,并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类,使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化,从而有利于提高声纹识别的准确率。
技术领域
本发明涉及声纹识别技术领域,特别是一种声纹模型构建方法、声纹识别方法及系统。
背景技术
声纹类似于指纹,是一个人特有的信息,一个人说的不同的话,其声纹应该是一致的,因此,通过声纹识别可以对说话人进行识别,在目前的语音处理中,“声纹识别”是一项重要的研究内容,如何提高声纹识别的准确率是目前亟待解决的问题。
发明内容
有鉴于此,本发明的目的在于提供一种声纹模型构建方法、声纹识别方法及系统,有利于提高声纹识别的准确率。
为达到上述目的,本发明的技术方案提供了一种声纹模型构建方法,包括:
步骤S1:建立孪生神经网络,所述孪生神经网络包括两个相同的子网,每一个所述子网包括特征提取模块以及特征表达模块,所述特征提取模块包括多个带通滤波器,所述特征表达模块包括若干个卷积层和若干个全连接层;
步骤S2:利用第一训练样本库、第一损失函数对所述建立的孪生神经网络进行第一训练,其中,所述第一训练样本库由同一人的多个音频文件构成,在所述第一训练的过程中,通过所述建立的孪生神经网络对所述第一训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第一损失函数,使得从同一人的不同音频文件中抽取的声纹向量之间的相似度最大化;
步骤S3:利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练,得到声纹模型,其中,所述第二训练样本库包括正样本集和负样本集,所述正样本集由同一目标人的多个音频文件构成,所述负样本集由非目标人的多个音频文件构成,在所述第二训练的过程中,通过经过所述第一训练的孪生神经网络对所述第二训练样本库中的音频文件进行声纹矢量化,以从其中每一个音频文件中抽取声纹向量,通过所述第二损失函数,使得从不同人的不同音频文件中抽取的声纹向量之间的相似度最小化。
进一步地,所述步骤S2包括:
从第一训练样本库抽取L组音频文件,每一组音频文件包括两个音频文件;
对于所述L组音频文件中的每一组音频文件,在利用所述建立的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第一损失函数计算损失值loss_1;
其中,Ni为所述L组音频文件中第i组音频文件中两个音频文件的声纹向量之间的相似度;
利用损失值loss_1调整所述建立的孪生神经网络。
进一步地,所述步骤S3包括:
从第二训练样本库抽取M组音频文件,每一组音频文件包括正样本集中的一个音频文件和负样本集中的一个音频文件;
对于所述M组音频文件中的每一组音频文件,在利用经过所述第一训练的孪生神经网络对其中的音频文件进行声纹矢量化后,采用Cosine相似度计算方式得到其中两个音频文件的声纹向量之间的相似度;
利用所述第二损失函数计算损失值loss_2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于龙马智声(珠海)科技有限公司,未经龙马智声(珠海)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811351279.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种声纹鉴权训练方法及系统
- 下一篇:语音识别方法、装置、电子设备及存储介质