[发明专利]一种基于角度间隔损失函数的声纹识别方法在审

专利信息
申请号: 201910293479.5 申请日: 2019-04-12
公开(公告)号: CN109903774A 公开(公告)日: 2019-06-18
发明(设计)人: 李武军;樊磊;余亚奇 申请(专利权)人: 南京大学
主分类号: G10L17/18 分类号: G10L17/18;G10L17/04;G10L17/02
代理公司: 南京乐羽知行专利代理事务所(普通合伙) 32326 代理人: 李玉平
地址: 210046 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于角度间隔损失函数(简称AM‑Softmax)的声纹识别方法,包括使用AM‑Softmax损失函数训练模型的步骤,以及对说话人身份进行识别和验证的步骤:首先利用已标注过说话人身份的语音数据,以AM‑Softmax损失函数为训练准则,训练深度神经网络模型;最后在识别和验证系统中,通过训练得到的深度神经网络模型提取表示说话人身份的特征向量,并和数据库中注册的人的特征向量进行比对,识别或验证说话人的身份。
搜索关键词: 损失函数 神经网络模型 角度间隔 声纹识别 特征向量 身份 验证 训练模型 验证系统 语音数据 比对 标注 数据库
【主权项】:
1.一种基于角度间隔损失函数的声纹识别方法,其特征在于:首先初始化深度神经网络模型,使用AM‑Softmax损失函数训练深度神经网络模型,再用训练好的深度神经网络模型提取代表说话人身份的声纹特征向量,和数据库中注册的声纹特征向量进行比对;包括使用AM‑Softmax损失函数的深度神经网络模型训练方法,以及使用提取的特征向量进行声纹识别和声纹验证的流程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910293479.5/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于词嵌入的LSTM网络声纹识别方法-201910642258.4
  • 闫河;罗成;李焕;董莺艳 - 重庆理工大学
  • 2019-07-16 - 2019-10-18 - G10L17/18
  • 本发明公开了一种基于词嵌入的LSTM网络声纹识别方法,包括以下步骤:S1、获取待识别语音片段;S2、通过快速傅里叶变换将待识别语音片段的时间刻度、频率和振幅转化,生成待识别语音片段的语谱图;S3、将待识别语音片段的语谱图通过词嵌入处理进行降维后输入训练后的LSTM网络,得到待识别语音片段的身份分类信息。本发明基于词嵌入降维的语谱图特征提取方法,来提高语谱图在网络训练中的有效性,同时利用LSTM网络具有很好的时序特征捕捉能力的特点,采用LSTM网络对词嵌入降维后的语谱图进行分类,实现了高准确率的声纹识别。
  • 黑名单声纹库构建方法、装置、计算机设备和存储介质-201910418485.9
  • 马坤;刘微微;赵之砚 - 平安科技(深圳)有限公司
  • 2019-05-20 - 2019-09-17 - G10L17/18
  • 本申请涉及声纹识别技术领域,提供了一种黑名单声纹库构建方法、装置、计算机设备和存储介质。所述方法包括:获取黑名单库以及黑名单库中用户的语音数据,对用户的语音数据进行有效性检测,得到用户的第一语音数据,根据预设的滑动窗口对第一语音数据进行采样,得到用户的多组采样语音数据,采用叠加算法,将用户的多组采样语音数据进行组合,得到第二语音数据,第二语音数据用于描述与文本无关的声纹向量,根据预先训练的深度神经网络模型,提取出第二语音数据的声纹特征,根据声纹特征构建黑名单声纹库。采用本方法能够构建黑名单声纹库对用户的身份进行识别,通过声纹识别的方式提高识别安全性。
  • 鸟类声音识别方法、装置、计算机设备和存储介质-201910420152.X
  • 吴冀平;彭俊清;王健宗 - 平安科技(深圳)有限公司
  • 2019-05-20 - 2019-09-17 - G10L17/18
  • 本申请涉及分类模型领域,使用卷积神经网络实现对鸟类声音类别的识别。具体公开了一种鸟类声音识别方法、装置、计算机设备和存储介质,该方法包括:根据小波变换算法对获取的鸟声录音数据进行降噪处理,以得到降噪鸟声信号;对降噪鸟声信号进行预加重、分帧和加窗,对得到的窗口数据进行快速傅里叶变换和取平方处理,得到窗口数据各自对应的谱线能量;基于梅尔滤波器组对各谱线能量进行处理,对得到窗口数据各自对应的梅尔频谱数据进行倒谱分析并对倒谱分析的结果进行一阶差分和二阶差分,获得窗口数据各自对应的梅尔倒谱特征向量;基于训练好的卷积神经网络,根据梅尔倒谱特征向量对降噪鸟声信号进行识别,输出降噪鸟声信号对应的鸟类识别数据。
  • 一种基于时延神经网络TDNN的声纹识别方法-201910323405.1
  • 司马华鹏;唐翠翠 - 南京硅基智能科技有限公司
  • 2019-04-22 - 2019-08-13 - G10L17/18
  • 本发明公开了一种基于时延神经网络TDNN的声纹识别方法,解决了声纹识别算法复杂、数据庞杂的问题,其技术方案要点是基于神经网络极强的特征提取能力,本公开使用时延神经网络TDNN提取说话人语音段的特征向量,再经过池化层和softmax层获取说话人语音段的后验概率,并通过损失函数进行训练得到交叉熵,训练完成后去掉softmax层得到最终用于训练PLDA模型的特征向量,不需要转录训练数据,且计算简单,有较好的识别效果。
  • 一种基于角度间隔损失函数的声纹识别方法-201910293479.5
  • 李武军;樊磊;余亚奇 - 南京大学
  • 2019-04-12 - 2019-06-18 - G10L17/18
  • 本发明公开了一种基于角度间隔损失函数(简称AM‑Softmax)的声纹识别方法,包括使用AM‑Softmax损失函数训练模型的步骤,以及对说话人身份进行识别和验证的步骤:首先利用已标注过说话人身份的语音数据,以AM‑Softmax损失函数为训练准则,训练深度神经网络模型;最后在识别和验证系统中,通过训练得到的深度神经网络模型提取表示说话人身份的特征向量,并和数据库中注册的人的特征向量进行比对,识别或验证说话人的身份。
  • 基于隐藏因素的模型融合方法及系统-201811467343.3
  • 洪国强;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤 - 厦门快商通信息技术有限公司
  • 2018-12-03 - 2019-05-24 - G10L17/18
  • 本发明公开了一种基于隐藏因素的模型融合方法及系统,其包括两个以上的神经网络模型,用于对模型变量进行预测,得到对应的两个以上的模型预测结果;其中,所述模型变量包括隐藏变量和/或显性变量;输入层,用于输入对模型效果产生影响的隐藏变量;两个以上的第一全连接层,其与所述的两个以上的神经网络模型相对应,并用于根据所述隐藏变量进行权值的学习;第一输出层,用于输出所述的两个以上的神经网络模型对应的权值;融合模块,用于根据所述权值对所述的两个以上的神经网络模型的模型预测结果进行融合,得到融合预测结果;从而能够充分考虑各模型的优缺点,使得融合后的效果更显著,极大的提高模型融合的准确率。
  • 一种基于密集神经网络的欺骗语音检测方法-201910033384.X
  • 王泳;苏卓艺 - 广东技术师范学院
  • 2019-01-14 - 2019-05-17 - G10L17/18
  • 本发明公开了一种基于密集神经网络的欺骗语音检测方法,具体涉及信息安全技术领域,具体包括如下检测步骤:步骤一:VT欺骗语音转换模型的构建:通过利用STFT来打破传统的时间和频率特性之间的联系,并保持节奏不变;构建卷积神经网络,使前一层网络的输出是传送到下一层作为输入,经过非线性操作输出。本发明通过建立密集卷积网络,保证了层间最大的信息流,增强了特征传播,而密集连接具有正则化效果,减少了对训练集较小的任务的过拟合,且密集卷积网络可以使网络层变窄,显著减少参数数量,减轻退化问题,支持有限神经元的重用,同时不需要重新学习冗余的特征图,便于训练。
  • 一种基于深度卷积神经网络的声纹识别分析方法-201811439719.X
  • 仲珩;李昕;褚治广;蔡盼 - 辽宁工业大学
  • 2018-11-29 - 2019-03-26 - G10L17/18
  • 本发明公开一种基于深度卷积神经网络的声纹识别分析方法,包括步骤1:采集已知说话人的语音信号,将所述语音信号进行预处理后生成灰度语谱图,对所述灰度语谱图进行特征参数提取;步骤2:对所述灰度语谱图的特征参数建立深度卷积神经网络进行训练;步骤3:采集待识别语音信号,根据步骤1获得待识别语音信号的灰度语谱图的特征参数,并采用训练好的卷积神经网络识别所述待识别语音信号的说话人。本发明提供的基于深度卷积神经网络的声纹识别分析方法,提取了语音信号的特征参数,并通过深度卷积神经网络训练、识别,能够正确的识别说话人的身份,取得了较好的效果,有效的提升了声纹识别的准确性和效率。
  • 一种基于Triplet-Loss的说话人识别方法-201810835179.0
  • 王艺航;熊晓明;刘祥;李辉 - 广东工业大学
  • 2018-07-26 - 2019-01-22 - G10L17/18
  • 本发明涉及一种基于Triplet‑Loss的说话人识别方法,包括以下步骤:S1:获取语音信号,包括三组样本,分别为说话人的一组语音序列、同一说话人另一组的语音序列以及不同说话人的一组语音序列;S2:进行语音信号的预处理,去除语音采集过程中产生的信道噪声;S3:对去噪后的语音信号进行语音特征参数提取;S4:以LSTM神经网络为基础,构建RNN神经网络;S5:将提取到的90%的三组语音特征参数作为RNN神经网络的输入,用于训练RNN神经网络;S6:RNN神经网络训练好后,将其余的10%的三组语音特征参数作为RNN神经网络的输入进行说话人识别。本发明具有准确率高、识别效果好、可靠性高等优点。
  • 一种基于3D卷积神经网络的声纹识别方法-201810804229.9
  • 王艺航;熊晓明;刘祥;李辉 - 广东工业大学
  • 2018-07-20 - 2019-01-15 - G10L17/18
  • 本发明公开了一种基于3D卷积神经网络的声纹识别方法,包括下述步骤:步骤一,对语音信号的预处理;语音采集过程中会产生较多的信道噪声,则会给识别任务带来较大的困难,因此首先采用谱相减法对输入语音数据进行去噪处理,即从带噪语音估值中减去噪声频谱估值,从而得到纯净语音的频谱;此处消除的是信道噪声,信道噪声是由录音设备所导致的噪声;去除信道噪音的同时,完全保存了与说话人有关的所有信息;本发明的语音信号预处理采用谱相减法,相对于其它方法,谱相减法引入的约束条件最少,物理意义最直接,运算量小,从而可以有效提高识别的准确性。
  • 一种识别发言者身份的方法及装置-201810735900.9
  • 王旭;林柱英;李莉 - 无锡众创未来科技应用有限公司
  • 2018-07-06 - 2018-11-30 - G10L17/18
  • 本发明涉及一种对发言者身份进行识别的方法,其包括:从第一视频片段的第一音频内容中提取第一音频特征,从包括第一发言者的第一视频内容中提取第一视频特征,基于第一音频特征和第一视频特征获得认证签名;从第二视频的第二音频内容中提取第二音频特征,所述第二音频特征中包括未被预识别的语言的第二发言者;从包括所述第二发言者的图像的第二视频内容中提取第二视频特征;基于所述第二发言者第二音频特征和第二视频特征;以及基于所述第二发言者的所述签名与所述认证签名进行匹配来确定所述第二视频片段中的所述第二发言者是否与所述第一视频片段中的所述第一发言者相同。
  • 一种基于卷积神经网络的伪装语音识别方法-201810214631.1
  • 康显桂;梁惠欣 - 中山大学
  • 2018-03-15 - 2018-11-13 - G10L17/18
  • 本发明公开了一种基于卷积神经网络的伪装语音识别方法,包括以下步骤:对伪装语音和原始语音进行预处理操作;用训练数据对原始卷积神经网络进行训练,训练出一个模型;用测试数据对模型进行检测,同时确定分类的准确率。本发明的识别方法的准确率较传统方法有1个多百分点的提升,并且设计简单。
  • 用于促进可靠样式检测的方法和系统-201810192277.7
  • 阿德里安·丹尼尔 - 恩智浦有限公司
  • 2018-03-08 - 2018-09-25 - G10L17/18
  • 根据本公开的第一方面,构想一种用于促进一个或多个时间序列样式的检测的方法,包括构建一个或多个人工神经网络,其中,对于待检测的至少一个时间序列样式,构建所述人工神经网络中的特定一个人工神经网络,所述人工神经网络中的所述特定一个人工神经网络被配置成产生决策输出和可靠性输出,其中所述可靠性输出指示所述决策输出的可靠性。根据本公开的第二方面,提供一种对应计算机程序。根据本公开的第三方面,提供一种用于促进一个或多个时间序列样式的检测的对应系统。
  • 一种基于卷积神经网络的翻录语音检测方法-201711323563.4
  • 王让定;李璨;严迪群;林朗 - 宁波大学
  • 2017-12-13 - 2018-06-22 - G10L17/18
  • 本发明公开了一种基于卷积神经网络的翻录语音检测方法,其先构建原始语音库和翻录语音库;然后提取原始语音库中的每个原始语音的语谱图作为正样本,提取翻录语音库中的每个翻录语音的语谱图作为负样本,选择一部分正样本和负样本构成训练集,剩余部分正样本和负样本构成测试集;接着根据训练集和卷积神经网络框架,构建卷积神经网络框架训练模型;再将测试集中的每个样本作为输入,输入到卷积神经网络框架训练模型中,得到分类结果;优点是其能够在不受文本限制的情况下,针对多种偷录设备的翻录语音均具有较高的检测准确率。
  • 基于卷积神经网络和频谱图的说话人识别方法-201710336940.1
  • 李玉鑑;穆红章 - 北京工业大学
  • 2017-05-14 - 2017-07-14 - G10L17/18
  • 本发明公开了基于卷积神经网络和频谱图的说话人识别方法,依次包括以下步骤首先,采集每一位说话人音频信号;然后,将音频信号转换成频谱图;其次,将图片作为输入层,经过AlexNet训练这个神经网络;再次使用反向传播算法逐层调整神经网络各层的权值和偏置;最后得到神经网络参数,对说话人进行分类。该方法从卷积神经网络的处理方法来快速的识别说话人。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top