[发明专利]一种说话人向量正则化方法、装置、电子设备和存储介质有效

申请号：	202010218732.3	申请日：	2020-03-25
公开（公告）号：	CN111462762B	公开（公告）日：	2023-02-24
发明（设计）人：	蔡云麒;王东;李蓝天	申请（专利权）人：	清华大学
主分类号：	G10L17/06	分类号：	G10L17/06;G06F18/2132;G06F18/2415;G06F18/25;G06F123/02
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	郭亮
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种说话向量正则方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例提供一种说话人向量正则化方法、装置、电子设备和存储介质，其中方法包括：确定待识别语音的说话人向量；将所述说话人向量输入至区分性标准流模型，得到所述区分性标准流模型输出的说话人正则化向量，所述说话人正则化向量整体服从高斯分布，且所述说话人正则化向量中表征各个说话人的向量分别服从高斯分布；所述区分性标准流模型是基于样本说话人向量及其对应的说话人标签训练得到的；基于所述说话人正则化向量，确定所述待识别语音的说话人识别结果。本发明实施例提供的方法、装置、电子设备和存储介质，能够很好地与后端打分模型兼容，提高了声纹识别系统的性能。

技术领域

本发明涉及声纹识别技术领域，具体涉及一种说话人向量正则化方法、装置、电子设备和存储介质。

背景技术

随着深度学习技术的发展，基于深度说话人表征向量的声纹识别技术取得了令人满意的识别性能，使得声纹识别技术已逐步从科研实验室应用到各种实际场景中。

现有技术中，说话人向量模型的训练目标仅是单纯的最大化区分不同说话人，深度说话人向量模型推理得到的说话人向量的分布是自由的、无约束的。而用于进行说话人识别的后端打分方法，例如PLDA(Probabilistic Linear Discriminant Analysis，概率线性判别分析)等，通常对说话人向量的分布具有特定要求。而目前说话人向量模型输出的说话人向量的分布通常无法满足后端打分模型的先验要求，二者无法很好地兼容，导致声纹识别的系统性能存在瓶颈。

发明内容

本发明实施例提供一种说话人向量正则化方法、装置、电子设备和存储介质，用以解决采用现有的说话人向量模型与后端打分模型无法很好地兼容，声纹识别系统的性能差的问题。

第一方面，本发明实施例提供一种说话人向量正则化，包括：

确定待识别语音的说话人向量；

将所述说话人向量输入至区分性标准流模型，得到所述区分性标准流模型输出的说话人正则化向量，所述说话人正则化向量整体服从高斯分布，且所述说话人正则化向量中表征各个说话人的向量分别服从高斯分布；所述区分性标准流模型是基于样本说话人向量及其对应的说话人标签训练得到的；

基于所述说话人正则化向量，确定所述待识别语音的说话人识别结果。

可选地，所述区分性标准流模型是基于最大似然估计方法训练得到的，训练目标为所述样本说话人向量的概率最大化。

可选地，用于训练所述区分性标准流模型的优化函数为：

式中，L为优化函数，x_i为第i个样本说话人向量，z_i为与x_i对应的样本说话人正则向量，y为样本说话人标签，为样本说话人y对应的正则向量z_i的概率密度分布函数，f为所述区分性标准流模型的映射函数表现形式。

可选地，所述说话人正则化向量中表征任一说话人的向量包括第一分量和第二分量；

其中，所述第一分量服从与所述任一说话人相关的条件分布，所述第二分量服从与每一说话人无关的边缘分布。

可选地，所述确定待识别语音的说话人向量，具体包括：