[发明专利]声纹识别模型的训练方法、装置、电子设备及存储介质在审

申请号：	201910087459.2	申请日：	2019-01-29
公开（公告）号：	CN109801636A	公开（公告）日：	2019-05-24
发明（设计）人：	乔登科	申请（专利权）人：	北京猎户星空科技有限公司
主分类号：	G10L17/04	分类号：	G10L17/04;G10L17/08;G10L17/18;G10L17/02
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	黄志华
地址：	100025 北京市朝***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种声纹识别模型的训练方法、装置、电子设备及存储介质，所述方法包括：获取一个训练集，训练集中包括用户的音频数据；将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型，得到训练集中每个音频数据对应的声纹特征向量和预测概率分布；根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布，计算交叉熵损失；根据训练集中每个音频数据对应的声纹特征向量和用户标识对应的参考声纹特征向量，计算中心损失；根据交叉熵损失和中心损失，更新声纹识别模型的模型参数。本发明实施例的技术方案，能够同时实现降低同一用户的声纹特征距离和增加不同用户的声纹特征距离两个优化目标。
搜索关键词：	音频数据声纹特征声纹识别向量存储介质电子设备概率分布交叉熵声学特征向量模型参数同一用户用户标识优化目标真实概率训练集预测参考更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种声纹识别模型的训练方法，其特征在于，包括：获取训练集，所述训练集中包括用户的音频数据；将所述训练集中各音频数据对应的声学特征向量分别输入声纹识别模型，得到所述训练集中每个音频数据对应的声纹特征向量和预测结果，所述预测结果为用于表征所述音频数据属于各用户的预测概率分布；根据所述训练集中每个音频数据对应的预测概率分布和所述每个音频数据对应的真实概率分布，计算交叉熵损失，所述交叉熵损失用于表征同一音频数据的预测概率分布与真实概率分布间的差异度，所述真实概率分布用于表征所述音频数据真实属于的用户；根据所述训练集中每个音频数据对应的声纹特征向量和所述每个音频数据对应的用户标识对应的参考声纹特征向量，计算中心损失，所述中心损失用于表征同一用户的声纹特征向量与参考声纹特征向量间的差异度；根据所述交叉熵损失和所述中心损失，更新所述声纹识别模型的模型参数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京猎户星空科技有限公司，未经北京猎户星空科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910087459.2/，转载请声明来源钻瓜专利网。

上一篇：一种基于注意力机制的声纹特征提取方法及装置
下一篇：基于隐藏因素的模型融合方法及系统

同类专利

语音识别方法及装置-201610156615.2
发明人：何占盈;徐斌;高海东 -专利权人：华为技术有限公司
申请日： 2016-03-18 - 公布日： 2019-11-12 - 主分类号： G10L17/04
摘要：本发明实施例提供一种语音识别方法及装置，包括：获取第一声学模型，所述第一声学模型表示输入的语音信号与预设状态的映射关系，所述预设状态为与所述语音信号对应的文本的基本组成元素；接收第一语音信号；根据所述第一语音信号及第二声学模型确定所述预设状态的概率值；所述第二声学模型是根据输入的第二语音信号及所述第一声学模型确定得到的，所述第一语音信号及所述第二语音信号是由相同的用户输入的；所述语音信号包括所述第一语音信号及所述第二语音信号；根据预设的语言模型及词典将所述第一语音信号对应的所述预设状态的概率值解码为第一文本。本发明实施例提供的语音识别方法及装置，可以提高对特定用户输入的语音的识别精确度。

声纹模型构建方法、声纹识别方法及系统-201811351279.2
发明人：聂颖;徐泓洋;郑权;张峰;聂镭 -专利权人：龙马智声（珠海）科技有限公司
申请日： 2018-11-14 - 公布日： 2019-11-05 - 主分类号： G10L17/04
摘要：本发明公开了一种声纹模型构建方法、声纹识别方法及系统，该声纹模型构建方法包括：步骤S1：建立孪生神经网络，所述孪生神经网络包括两个相同的子网，每一个所述子网包括特征提取模块以及特征表达模块；步骤S2：利用第一训练样本库、第一损失函数对所述创建的孪生神经网络进行第一训练；步骤S3：利用第二训练样本库、第二损失函数对经过所述第一训练的孪生神经网络进行第二训练，得到声纹模型。本发明采用孪生网络的思想对声纹模型的网络结构进行设计，并通过第一训练和第二训练实现声纹模型对不同人的音频声纹进行聚类，使训练后得到的声纹模型能够有效对音频文件进行声纹矢量化，从而有利于提高声纹识别的准确率。

声纹模型更新方法及系统-201510149390.3
发明人：方昕;何俊;刘俊华;魏思;胡国平;王影;胡郁;刘庆峰 -专利权人：讯飞智元信息科技有限公司
申请日： 2015-03-31 - 公布日： 2019-10-18 - 主分类号： G10L17/04
摘要：本发明公开了一种声纹模型更新方法及系统，该方法包括：获取目标说话人当前登录时间及目标说话人声纹模型上一次的更新时间；将目标说话人声纹模型上一次的更新时间至目标说话人当前登录时间的时间段划分为多个时间聚团；获取每个时间聚团内所述目标说话人声纹认证成功时的语音数据；从每个时间聚团内认证成功的语音数据中选择语音数据作为目标说话人声纹模型更新数据；利用所述目标说话人声纹模型更新数据及原声纹模型训练数据重新进行声纹模型训练，得到训练后的新声纹模型；利用所述新声纹模型更新所述目标说话人声纹模型。利用本发明，可以有效防止冒认者说话人在很短时间内持续更新目标说话人声纹模型，保证目标说话人声纹模型更新的正确性。

一种声纹识别方法及系统-201610218436.7
发明人：金星明;李为;郑昉劢;吴富章;朱碧磊;钱柄桦;李科;吴永坚;黄飞跃 -专利权人：腾讯科技（深圳）有限公司
申请日： 2016-04-08 - 公布日： 2019-09-27 - 主分类号： G10L17/04
摘要：本发明实施例公开了声纹识别方法，包括：分别训练N个身份因子I‑Vector矩阵，得到N个I‑Vector矩阵；N为大于1的自然数；根据N个I‑Vector矩阵，从测试样本中分别提取中N个对应的I‑Vector向量；根据N个对应的I‑Vector分别计算得分，得出N个对应的分数；将N个对应的分数进行融合，得到目标分数，并根据目标分数进行判决。采用本发明，能够实现在海量训练数据前提下，突破现有技术中单一I‑Vector框架声纹识别性能瓶颈的技术问题，经测试表明，通过两个以上经过足量数据训练的I‑Vector框架相对于单一I‑Vector框架系统整体性能均能提升20％～30％左右。

一种号码发现方法及系统-201510998519.8
发明人：张程风;洪华斌;徐勇;柳林;殷兵;胡国平;冯翔;张平;胡郁 -专利权人：讯飞智元信息科技有限公司
申请日： 2015-12-24 - 公布日： 2019-09-03 - 主分类号： G10L17/04
摘要：本发明公开了一种号码发现方法及系统，所述方法包括：根据收集的目标人的语音数据构建目标人声纹模型；获取目标人的已知使用号码和候选测试号码以及各号码的通话信息；提取所述候选测试号码的使用人的声纹特征；计算各候选测试号码的使用人的声纹特征与目标人声纹模型的相似度得分；计算结束后，基于候选测试号码的通话信息与目标人的已知使用号码的通话信息和/或外界导入的目标人相关信息的关联度对所述相似度得分进行规整；根据规整后的相似度得分确认目标人使用的号码。本发明由于对相似度得分的规整不仅仅依赖于非目标人的声纹模型的均值和方差均值，可以进一步地提升声纹识别的准确性。

一种多模型融合的声纹识别方法、终端、服务器及存储介质-201910441119.5
发明人：洪国强;肖龙源;李稀敏;蔡振华;刘晓葳;谭玉坤;王静 -专利权人：厦门快商通信息咨询有限公司
申请日： 2019-05-24 - 公布日： 2019-08-23 - 主分类号： G10L17/04
摘要：本发明公开了一种多模型融合的声纹识别方法、终端、服务器及存储介质，所述方法先建立多模式融合方式进行模型训练，生成多模式融合声纹识别模型，根据场景需求，选择所述多模式融合声纹识别模型用于进行声纹注册或认证；所述场景需求包含音频数据的采样频率。本发明能有效利用不同频段的语音数据特性采用多模式融合的声纹模型进行声纹识别，提升声纹识别的识别率；可以兼容多种采样率，根据精度及语音质量自适应算法。同时将音频数据进行多个频段划分，解决不同环境噪声，提升声纹识别效果。

基于说话内容的说话者身份识别方法、装置及存储介质-201910305438.3
发明人：王健宗;孙奥兰 -专利权人：平安科技（深圳）有限公司
申请日： 2019-04-16 - 公布日： 2019-08-16 - 主分类号： G10L17/04
摘要：本发明涉及语音处理领域，提出一种基于说话内容的说话者身份识别的方法、装置及存储介质，其中的方法包括采集初始语音信号，其中，初始语音信号包含多个待确认目标的说话内容；通过语音识别技术将初始语音信号转换为与说话内容对应的文本信息；根据文本信息对说话者身份进行识别，获取与各个待确认目标对应的文本信息片段，说话者为多个待确认目标其中之一；根据文本信息片段获取与待确认目标对应的语音信号段并进行拼接，获取目标语音信号；根据目标语音信号对待确认目标的身份进行确认。本发明基于说话内容进行说话人身份的识别及验证，能够提高身份验证过程中的准确率，实现其在电话客户服务中的应用，节省人力物力。

模型训练方法、装置、电子设备及存储介质-201910305432.6
发明人：曹冰 -专利权人： OPPO广东移动通信有限公司
申请日： 2019-04-16 - 公布日： 2019-07-26 - 主分类号： G10L17/04
摘要：本申请公开了一种模型训练方法、装置、电子设备及存储介质，属于通信技术领域。该方法包括：获取语音信号，所述语音信号包括至少一个语音内容；从所述至少一个语音内容中查找与唤醒词匹配的语音内容，作为目标语音内容；获取所述目标语音内容对应的声纹信息；根据所述唤醒词对所述声纹信息进行截取，得到标准声纹信息；利用所述标准声纹信息对声纹模型进行训练，以获取目标声纹模型。本申请实施例提供的模型训练方法。通过对声纹信息的获取与处理可以获取到更加标准的声纹信息，如此可以获取到更优的声纹模型，进而提升用户的声纹唤醒体验。

一种对抗人工智能语音语调学习真人识别的防御方法-201910187855.2
发明人：娄奥林 -专利权人：娄奥林
申请日： 2019-03-13 - 公布日： 2019-06-18 - 主分类号： G10L17/04
摘要：本发明提供一种对抗人工智能语音语调学习真人识别的防御方法，所述方法包括以下步骤：录音传入，累计识别，基线判断与基线建立，可信评估，结果返回。本发明是一种对抗人工智能语音语调学习真人识别的防御方法，通过对用户使用的语言方式形式建立个性化的数据模型，对用户的说话习惯进行识别，能够有效的识别合成语音，避免发生受骗上当或其他危害社会的情况。

一种基于级联DNN的语音唤醒优化方法-201910334772.1
发明人：赵升 -专利权人：武汉水象电子科技有限公司
申请日： 2019-04-24 - 公布日： 2019-06-14 - 主分类号： G10L17/04
摘要：本发明公开了一种基于级联DNN的语音唤醒优化方法，包括1)、实时获取麦克风采集的语音信号，经过特征抽取，获得实时语音信号的逐帧声学特征；2)、以固定窗长，截取声学特征序列，形成一帧，作为第一级DNN的输入；3)、经过第一级DNN声学模型的前向过程计算，输出得到逐帧音素的声学后验概率；4)、以固定的窗长截取第一级DNN的输出，形成一帧音素后验概率序列，作为第二级DNN的输入；5)、经过第二级DNN前向过程计算，判定并输出是否唤醒。本发明能最大程度利用DNN的抗噪能力，环境适应性强，不必先做VAD再做唤醒检测；也不必对语音背景单独建模；两级模型能够互补，极大减少训练所需语料；没有语言模型，不需要文本语料。

一种语音敏感词监督系统和方法-201910132187.3
发明人：熊凌云 -专利权人：深圳云游四海信息科技有限公司
申请日： 2019-02-22 - 公布日： 2019-05-28 - 主分类号： G10L17/04
摘要：一种语音敏感词监督系统和方法，用于公共车辆环境下语音敏感词的处理，其特征在于，所述语音敏感词监督系统包括语音采集装置、语音分析装置和监控平台，所述语音采集装置采集出租车内的音频信息，语音分析装置对采集到的音频信息进行分析并与预先建立在语音分析装置上的出租车司机的原始语音信号模型进行对比，车载智能终端将对比结果传输至监控平台，以供监管人员对出租车司机语言进行监管。本发明能够直接对司机的服务态度进行实时监控，便于对出租车司机的服务态度进行调整。

一种基于多精度拟合的样本复制语音自动检测方法-201610192323.4
发明人：杨莹春;孙永坤;吴朝晖 -专利权人：浙江大学
申请日： 2016-03-30 - 公布日： 2019-05-28 - 主分类号： G10L17/04
摘要：本发明涉及语音检测领域，尤其涉及一种基于多精度拟合的样本复制语音自动检测方法，包括如下步骤：S1、建立语音特征库；S2、目标说话人识别模型训练；S3、样本复制语音检测模型训练；S4、说话人识别；S5、样本复制语音检测。本发明的样本复制语音自动检测方法，可以防止冒认者获取到用于声纹识别系统训练模型的样本复制语音后，试图通过越过测试语音采集步骤，直接调用服务端接口的方式将样本复制语音直接提交给声纹识别系统的服务端进行入侵的情况发生，提高了声纹识别系统的安全性。

声纹识别模型的训练方法、装置、电子设备及存储介质-201910087459.2
发明人：乔登科 -专利权人：北京猎户星空科技有限公司
申请日： 2019-01-29 - 公布日： 2019-05-24 - 主分类号： G10L17/04
摘要：本发明公开了一种声纹识别模型的训练方法、装置、电子设备及存储介质，所述方法包括：获取一个训练集，训练集中包括用户的音频数据；将训练集中各音频数据对应的声学特征向量分别输入声纹识别模型，得到训练集中每个音频数据对应的声纹特征向量和预测概率分布；根据训练集中每个音频数据对应的预测概率分布和每个音频数据对应的真实概率分布，计算交叉熵损失；根据训练集中每个音频数据对应的声纹特征向量和用户标识对应的参考声纹特征向量，计算中心损失；根据交叉熵损失和中心损失，更新声纹识别模型的模型参数。本发明实施例的技术方案，能够同时实现降低同一用户的声纹特征距离和增加不同用户的声纹特征距离两个优化目标。

语音声纹建模方法及装置-201810382499.5
发明人：郑榕;王黎明 -专利权人：四川远鉴科技有限公司
申请日： 2018-04-25 - 公布日： 2019-05-03 - 主分类号： G10L17/04
摘要：本发明提供了一种语音声纹建模方法及装置，通过与实际应用场景相结合，提出了一套面向多人交谈语音的声纹自动建模框架，基于客户端与服务器端的实现方式，结合先验信息，包括预先设定说话人数、预先采集参考人语音数据等方式，对问题进行约束，更有效地满足多人合路语音的分离与建模需求。对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理，不需要额外的采集设备，且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作，在单靠人力已无法实现的情况下，全流程自动完成声纹注册，有效提升工作效率。

一种基于语音样本特征空间轨迹的说话人识别方法-201910027145.3
发明人：贺前华;吴克乾;谢伟;庞文丰 -专利权人：华南理工大学
申请日： 2019-01-11 - 公布日： 2019-03-29 - 主分类号： G10L17/04
摘要：本发明公开了一种基于语音样本特征空间轨迹的说话人识别方法，所述方法包括对无标注语音数据特征进行聚类、得到语音特征空间表示：标识子集合；使用标注语音样本进行说话人注册，得到说话人在语音特征空间中的分布信息和运动轨迹信息；对待识别语音样本利用说话人语音特征空间分布信息以及语音样本的运动轨迹信息进行识别。本发明采用说话人语音特征空间定位的思路，说话人识别计算复杂度低，解决了GMM‑UBM计算复杂度高的问题；并且一个语种的说话人语音特征空间可作为另一语种的说话人识别的语音特征空间，实现了数据的共享。

声纹模型训练方法、语音识别方法、装置、设备及介质-201710811983.0
发明人：王健宗;郭卉;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2017-09-11 - 公布日： 2019-03-19 - 主分类号： G10L17/04
摘要：本发明公开一种声纹模型训练方法、语音识别方法、装置、设备及介质。该声学模型训练方法包括：采用至少两个业务场景下的训练语音数据进行通用背景模型训练，获取通用背景模型；采用所述通用背景模型对域内语音数据和域外语音数据分别进行特征提取，获取相应的域内声纹特征和域外声纹特征；基于所述域外声纹特征进行概率线性判别分析模型训练，获取域外概率线性判别分析模型；基于所述域内声纹特征对所述域外概率线性判别分析模型进行自适应训练，获取目标概率线性判别分析模型。该声纹模型训练方法克服了某些业务场景无法获得单人多通语音数据的问题，并保证目标概率线性判别分析模型的识别效果。

声纹信息的比对方法及装置、储存介质、电子装置-201811386453.7
发明人：邹新生 -专利权人：北京网众共创科技有限公司
申请日： 2018-11-20 - 公布日： 2019-03-08 - 主分类号： G10L17/04
摘要：本发明实施例提供了一种声纹信息的比对方法及装置、存储介质、电子装置，所述方法包括：采集客户的第一声纹信息；将符合预设规则的第一声纹信息存入声纹库，其中，声纹库中存储的声纹信息包括客户本人的第一声纹信息和非客户本人的其他声纹信息；将获取的第二声纹信息与声纹库中的储存的声纹信息进行比对。解决了相关技术中没有对声纹比对的样本建立严格的标准可信标准声纹库，也没有一种结合声纹库对声纹欺诈行之有效的判断方法的问题。

一种语谱图生成方法、系统及相关装置-201910012744.8
发明人：李浩;段旭恒;潘雷明 -专利权人：广州势必可赢网络科技有限公司
申请日： 2019-01-07 - 公布日： 2019-03-08 - 主分类号： G10L17/04
摘要：本申请所提供的一种语谱图生成方法，包括：对采集到的语音进行参数配置处理，生成二维语谱图；提取二维语谱图的坐标点信息；利用坐标点信息进行动态建模，生成三维语谱图。该方法先是对采集到的语音进行参数配置处理，生成二维语谱图，再提取二维语谱图的坐标点信息，最后利用坐标点信息进行动态建模，生成三维语谱图。可见，该方法利用二维语谱图的坐标点信息进行动态建模，生成三维语谱图，相比于相关技术中的二维图谱能够更加直观、准确地体现声纹特征，避免花费大量的资源成本去观察比对，进而提高声纹鉴定效率。本申请还提供一种语谱图生成系统、设备及计算机可读存储介质，均具有上述有益效果。

训练声纹识别系统的方法和装置-201610639606.9
发明人：李为;钱柄桦;金星明;李科;吴富章;吴永坚;黄飞跃 -专利权人：腾讯科技（深圳）有限公司
申请日： 2016-08-05 - 公布日： 2019-03-01 - 主分类号： G10L17/04
摘要：本发明公开了一种训练声纹识别系统的方法和装置，属于声纹识别技术领域。该方法包括：确定出语音训练集合中每段语音的身份向量，将确定出的身份向量中同一用户的语音的身份向量划分为一个类别；建立用于计算与每一类别对应的第一数值的第一函数，第一数值为对应类别内利用规整矩阵规整后的第一身份向量与该对应类别内利用规整矩阵规整后的其他身份向量之间相似度的总和；确定出使各个类别的第一数值的总和最大化的规整矩阵；利用确定出的规整矩阵规整声纹识别系统中获取的语音的身份向量。解决了相关技术中利用经过利用线性区分分析处理后的身份向量进行声纹识别准确率的提高程度低的问题，提高了声纹识别的准确率。

对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置-201811079831.7
发明人：赵峰;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-09-17 - 公布日： 2019-02-15 - 主分类号： G10L17/04
摘要：本发明涉及人工智能，提供了一种基于深度神经网络生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置，其中，基于生成对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法包括：根据不含噪声的语音数据和包含指定类型噪声的MFCC特征对生成对抗网络的编码网络和判别网络分别轮流进行训练；采用通用背景模型对训练后的生成对抗网络进行评估。通过本发明的技术方案，能够明显地提升对多个用户的语音数据进行分离的准确性，增强了语音处理效果。

身份识别方法、装置、介质及电子设备-201811490181.5
发明人：刘兴旺 -专利权人：泰康保险集团股份有限公司
申请日： 2018-12-06 - 公布日： 2019-02-15 - 主分类号： G10L17/04
摘要：本发明实施例涉及数据处理技术领域，提供了一种身份识别方法、身份识别装置、计算机可读介质及电子设备，该身份识别方法包括：对待识别用户的音频片段进行预处理获得第一语音特征数据；基于神经网络模型，根据所述第一语音特征数据确定待识别声纹特征；将所述待识别声纹特征与预先设置的声纹特征库中的标记声纹特征进行比对，并根据比对结果对所述待识别用户进行身份识别。本发明实施例的技术方案基于经过大数据训练后的神经网络模型能够获得对待识别用户的深层表示特征，能够扩展声纹特征维度，有利于增加不同的标记声纹之间的差异度，进而有利于提高对待测试用户进行身份识别的准确性和稳定性。

歌唱者识别方法和装置-201811148198.2
发明人：陈建哲;钟思思;贺学焱 -专利权人：百度在线网络技术（北京）有限公司
申请日： 2018-09-29 - 公布日： 2019-02-05 - 主分类号： G10L17/04
摘要：本申请实施例公开了歌唱者识别方法和装置。该方法的一具体实施方式包括：采用已训练的人声分离模型对待识别的音乐数据进行处理，得到待识别的音乐数据中的人声数据；将待识别的音乐数据中的人声数据输入已训练的歌唱者识别模型，得到待识别的音乐数据的歌唱者识别结果。该实施方式提升了歌唱者识别的准确度。

一种可自动更新模型的操作人员身份识别系统及方法-201811027510.2
发明人：王健;舒乔晔;秦康平;史济全;王铮;曹杰;傅山 -专利权人：国家电网公司华东分部;上海交通大学
申请日： 2018-09-04 - 公布日： 2019-01-25 - 主分类号： G10L17/04
摘要：本发明公开了一种可自动更新模型的操作人员身份识别系统及方法，所述系统包括：语音输入单元，用于获取说话人的语音数据；说话人识别模块，用于利用预先建立的语音识别模型进行说话人身份识别；识别结果处理单元，用于根据所述说话人识别模块的识别结果确定说话人的身份识别是否通过，通过本发明，可实现一种安全可靠、简单易用、可满足实际应用场景需求并确保长期的识别准确率的操作人员身份识别技术。

一种声纹鉴权训练方法及系统-201811336977.5
发明人：毛海涛;鲍捷;吕春;王明;阴陶;戴荣 -专利权人：成都傅立叶电子科技有限公司
申请日： 2018-11-12 - 公布日： 2019-01-18 - 主分类号： G10L17/04
摘要：一种声纹鉴权训练方法及系统，方法包括：加载音频配置文件，对训练需要的音频文件及标准文件进行数据配置和确认；加载训练模型参数；构建基于神经网络的训练模型，作为语音识别的训练特征，并完成模型加载；将完成的配置数据加载输入训练模型；进行模型训练：使用HE来初始化神经网络的权重；训练后输入SOFTMax分类器进行处理，通过ResCNN进行神经网络训练；通过余弦相似性实现三元组损失函数进行训练评估；基于归一化处理数据评估的标准；生成声纹识别的声纹库并保存。系统包括音频配置模块、参数加载模块、模型构建模块、数据输入模块、模型训练模块、存储模块。识别精度高达到94.45％，相比于传统的i‑vector方法，准确率提高了近30％。

自更新的反欺诈方法、装置、计算机设备和存储介质-201810345256.4
发明人：郑斯奇;王健宗;肖京 -专利权人：平安科技（深圳）有限公司
申请日： 2018-04-17 - 公布日： 2018-11-13 - 主分类号： G10L17/04
摘要：本申请中提供了一种自更新的反欺诈方法、装置、计算机设备和存储介质，黑名单声纹库中加入新的欺诈语音数据时，基于所述黑名单声纹库中的欺诈语音数据重新训练声纹训练模型的训练参数，得到更新后的声纹训练模型；接收第一语音数据，并通过更新后的所述声纹训练模型计算第一语音数据与黑名单声纹库中的欺诈语音数据的相似度分值；若所述相似度分值高于设定的相似度阈值，则判定所述第一语音数据为欺诈语音数据黑名单声纹库中加入新的欺诈语音数据时，针对所有欺诈语音数据重新训练声纹训练模型的训练参数，得到更新后的声纹训练模型；不断更新声纹训练模型，以更好的适应语音反欺诈，提升反欺诈准确性，克服误报的缺陷，同时提升检测效率。

语音模型训练方法、说话人识别方法、装置、设备及介质-201810549432.6
发明人：涂宏 -专利权人：平安科技（深圳）有限公司
申请日： 2018-05-31 - 公布日： 2018-11-09 - 主分类号： G10L17/04
摘要：本发明公开了一种语音模型训练方法、说话人识别方法、装置、设备及介质。语音模型训练方法包括：基于预先准备的训练语音数据进行通用背景模型训练，获取通用背景模型；基于所述通用背景模型对目标说话人语音数据进行自适应处理，获取相对应的目标声纹特征模型；基于所述目标声纹特征模型，获取所述目标说话人语音数据的目标声纹特征向量；将所述目标声纹特征向量输入到深度神经网络中进行训练，获取目标说话人语音识别模型。采用该语音模型训练方法获取的目标说话人语音识别模型进行说话人识别能够得到精确的识别结果。

一种短时语音条件下的说话人识别方法-201810207343.3
发明人：李燕萍;刘俊坤;凌云志 -专利权人：南京邮电大学
申请日： 2018-03-13 - 公布日： 2018-08-28 - 主分类号： G10L17/04
摘要：本发明公开了一种短时语音条件下的说话人识别方法，包括以下步骤：（1）：对不同说话人的短时语音进行预处理，提取语音特征向量并相应说话人标记；（2）：用语音特征数据对深度置信网络进行有监督的训练，构建深度置信网络模型；（3）：将深度置信网络模型中瓶颈层之后的网络结构去除，形成瓶颈输出网络模型；（4）：将不同说话人的语音特征向量依次经过瓶颈输出网络模型，提取得到相应的瓶颈特征，然后将瓶颈特征作为矢量量化训练输入，构建矢量量化模型；（5）：将待识别短时语音的语音特征向量经过瓶颈输出网络模型，提取相应瓶颈特征，再将得到的待识别短时语音的瓶颈特征输入矢量量化模型进行识别。本发明具有系统识别率高的优点。

语音识别装置及方法、以及半导体集成电路装置-201410065495.6
发明人：野中勉 -专利权人：精工爱普生株式会社
申请日： 2014-02-25 - 公布日： 2018-08-28 - 主分类号： G10L17/04
摘要：本发明涉及一种语音识别装置及方法、以及半导体集成电路装置，通过使语音识别中选择项信息的更新变容易从而适当限制选择项信息的范围以提高识别率、或者能应对较深的语音识别分级菜单。语音识别用的半导体集成电路装置包括：将表示单词或者语句的文本数据与指令一起接收并根据指令在转换列表中设定文本数据的转换候选设定部；从语音识别数据库中提取与在转换列表中所设定的文本数据表示的单词或者语句的至少一部分相对应的标准模式的标准模式提取部；提取所输入的语音信号的频率成分并生成表示频率成分的分布状态的特征模式的信号处理部；检测根据语音信号的至少一部分而生成的特征模式和标准模式的一致性并输出语音识别结果的一致检测部。

用于识别语音的电子设备-201711466945.2
发明人：李英宇;辛晧先;李相勋 -专利权人：三星电子株式会社
申请日： 2017-12-28 - 公布日： 2018-07-17 - 主分类号： G10L17/04
摘要：一种电子设备包括：获得音频信号的麦克风；存储讲话者模型的存储器；以及至少一个处理器。所述至少一个处理器被配置为从所述音频信号获得语音信号，将所述语音信号与所述讲话者模型进行比较以验证用户，以及如果验证结果指示所述用户对应于预先登记的讲话者，执行与所获得的语音信号相对应的操作。

一种声纹识别方法-201611231656.X
发明人：张学阳 -专利权人：张学阳
申请日： 2016-12-23 - 公布日： 2018-07-03 - 主分类号： G10L17/04
摘要：本发明属于计算机和人工智能领域，特别涉及到通过声纹识别技术应用在机器上实现语音锁功能的一种语音方法。主要创新点在语音模型的建立过程和语音识别阶段这两个过程，在建立模型阶段，采用一对一SVM模型，降低了模型复杂度，引入序列最小最优化算法，采用二次规划与启发式的方法选取变量，以加快模型训练速度，在识别阶段，提出的算法采用k‑means与线性规划相结合的方式得出每个人的识别评分。当训练模型的训练特征向量个数R和训练人数P平方的乘机远远大于聚类迭代次数t时，SVM加权聚类识别方法识别速度有巨大提升。本发明可以应用于汽车，智能家居，工厂机器，银行安全等涉及到声纹识别技术的领域当中。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]声纹识别模型的训练方法、装置、电子设备及存储介质在审

专利文献下载