[发明专利]基于改进的LSDA算法进行信道补偿的说话人识别方法在审
申请号: | 201611139153.X | 申请日: | 2016-12-12 |
公开(公告)号: | CN106601258A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 蔡丹蔚;陈金坤;蔡炜诚;李明 | 申请(专利权)人: | 广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18;G10L17/20 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 528300 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供的说话人识别方法引入改进的LSDA算法代替之前的LDA算法来进行信道补偿,改进的LSDA算法通过引入自适应k近邻的概念,跟据每个类的大小自适应地寻找k个类内近邻与βk个类间近邻;并且引入每一说话人类对算法贡献均等的概念,对每一说话人类在目标方程中的贡献进行归一化处理。使得方法更适用于说话人识别任务的数据分布,从而在说话人识别准确率上得到比原始LSDA算法更好的性能提升。 | ||
搜索关键词: | 基于 改进 lsda 算法 进行 信道 补偿 说话 识别 方法 | ||
【主权项】:
一种基于改进的LSDA算法进行信道补偿的说话人识别方法,其特征在于:包括以下步骤:S1.对训练数据中所有的语音进行语音信号检测,并提取MFCC特征;S2.使用神经网络声学模型对MFCC特征进行处理,一个MFCC帧通过神经网络声学模型的处理后,得到多维的音素层单元后验概率向量,对得到的音素层单元后验概率向量进行取对数、主成分分析降维、均值方差归一化处理之后,得到一个多维的向量,将这个向量拼接到与其对应的MFCC特征后,得到tandem特征;S3.利用tandem特征训练一个包含多个高斯分量的混合高斯模型作为通用背景模型,并将所有语音在这个通用背景模型上计算出充分统计量;对于训练数据中的任一条语音,基于充分统计量计算出其高维的超向量;S4.使用单因子分析方法对训练数据中所有的语音学习出一个低维的总体差异空间,即说话人空间;将训练数据中所有的语音的超向量在这个总体差异空间上投影得出每一条语音的身份向量{x1,x2,…,xm};每条身份向量关联着说话人的身份信息,第i条身份向量xi对应的说话人标签为l(xi);S5.使用改进的LSDA算法进行信道补偿:S51.对于每一条身份向量xi,寻找k个具有相同说话人类标的类内近邻子集Nw(xi)与βk个具有不同说话人类标的类间近邻子集Nb(xi),其中β为一个常量;当Nw(xi)中对应的说话人的身份向量数nc小于k时,令k=nc;S52.基于类内近邻子集Nw(xi)与类间近邻子集Nb(xi)构建身份向量的类内近邻图Gw与类间近邻图Gb,以及类内近邻图Gw与类间近邻图Gb的权值矩阵Ww′与Wb′: 其中,i、j表示矩阵Wb′中第i行、第j列的元素; 为了满足对LSDA算法的两个目标方程的变形改写,最终的类内权值矩阵Ww与类间权值矩阵Wb为如下对称矩阵的形式:Ww=12(Ww′+Ww′T)]]>Wb=12(Wb′+Wb′T)]]>S53.寻找一个在原数据流形与目标子流形之间的映射,使得在目标子流形中,Gw内的连接点尽量地接近,Gb内的连接点尽量地隔离开;令为一个最优的线性映射,则yi=ATxi;其中,表示n×d维的实数空间,表示n维的实数空间,表示映射;LSDA算法的两个目标方程可写为:min∑ij(aTxi‑aTxj)2Ww,ijmax∑ij(aTxi‑aTxj)2Wb,ij其中a表示A=(a1,…,ad)中的一个列向量;通过矩阵运算,LSDA算法的两个目标方程重写为:12Σij(aTxi-aTxj)2Ww,ij=12Σij(aTxixiTa-2aTxiaTxj+aTxjxjTa)Ww,ij=12(ΣijaTxixiTaWw,ij+ΣijaTxjxjTaWw,ij)-ΣijaTxiaTxjWw,ij=ΣijaTxixiTaWw,ij-ΣijaTxiaTxjWw,ij=aTXDwXTa-aTXWwXTa]]>12Σij(aTxi-aTxj)2Wb,ij=aTXLbXTa]]>=12Σij(aTxixiTa-2aTxiaTxj+aTxjxjTa)Wb,ij=12(ΣijaTxixiTaWb,ij+ΣijaTxjxjTaWb,ij)-ΣijaTxiaTxjWb,ij=ΣijaTxixiTaWb,ij-ΣijaTxiaTxjWb,ij=aTXDbXTa-aTXWbXTa=aTXLbXTa]]> 其中,Dw为对角阵,Dw,ii=∑jWw,ij;Lb=Db‑Wb,Db,ii=∑jWb,ij;X=(x1,x2,…,xm)是一个n×m的矩阵; S54.当对角阵Dw中的Dw,ii很大时,表示数据点xi所在的类在数据点xi处很密集,因此这个点xi更加重要;引入一个限制条件,如下: aTXDwXTa=1 因此,LSDA算法的第一个目标方程可重写为:mina1-aTXWwXTa]]> 也即:maxaaTXWwXTa]]> 综合以上的公式推导,LSDA的最终目标方程为:argmaxaaTX[αLb+(1-α)Ww]XTa]]>aTXDwXTa=1其中,α为调整类内图Gw与类间图Gb之间权值的参数,0≤α≤1;S55.使用拉格朗日乘子法,以上的目标方程写为:X[αLb+(1‑α)Ww]XTa=λXDwXTa将上面公式右边的XDwXT化到公式左边,以上公式变为:(XDwXT)‑1X[αLb+(1‑α)Ww]XTa=λa因此,投影向量a的求解问题即可转变为以上公式的特征向量求解问题;寻找矩阵(XDwXT)‑1X[αLb+(1‑α)Ww]XT的前d个特征向量{a1,…,ad},最终的LSDA变换矩阵为S56.将身份向量通过LSDA变换矩阵A映射到目标身份向量;对于一条原身份向量xi,映射后的目标身份向量为yi=ATxi;S6.使用PLDA算法对映射后的身份向量进行建模,得到PLDA模型;S7.对于两个需要判断其对应身份的语音,首先提取出其身份向量,然后计算出它们在PLDA模型上的似然得分,根据分数判断两个身份向量所对应的说话人是否为同一个。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学,未经广东顺德中山大学卡内基梅隆大学国际联合研究院;中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611139153.X/,转载请声明来源钻瓜专利网。