[发明专利]一种基于自适应语音帧加权的说话人识别方法有效
申请号: | 201910369970.1 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110085236B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 邹霞;张星昱;孙蒙;吴彭龙;时文华;张雄伟;贾冲;李莉 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G10L17/12 | 分类号: | G10L17/12;G10L17/20;G10L17/04;G10L25/24 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李庆波 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 语音 加权 说话 识别 方法 | ||
1.一种基于自适应语音帧加权的说话人识别方法,其特征在于:
第一步,基于训练数据得到通用背景高斯模型,包括:
A1:通过最大期望算法,利用训练数据训练出256个中心的通用背景高斯模型,返回GMM超参数均值、均方差矩阵和权重;
A2:提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量Ng和一阶统计量Fg,其中:
其中,p(g|Ot,λubm)表示给定观测Ot后,所述通用背景高斯模型的第g个分量的后验概率;
A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:
M=m+T·x
其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i-vector;
第二步,通过训练数据对高斯概率线性判别分类器进行训练,包括:
B1:提取训练集的i-vector来训练高斯概率线性判别分类器,使用最大期望算法来从训练集的i-vector学习得到高斯概率线性判别分类器;
假设i-vector的因子分析模型为:
为特征音子空间的最大似然估计,x代表i-vector,m是训练集的i-vector的均值,y~N(0,I)是潜在因子矢量,∈表示没有包含在潜在变量中的随机噪声残差项;
B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i-vector的均值、权值转化;
第三步,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人;
C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i-vector;
C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i-vector,并根据步骤C1中得到的已注册说话人的i-vector进行打分,使用高斯概率线性判别分类器计算i-vector试验的验证分数,计算如下:
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);
C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份;
对受噪声影响较小的语音帧,选择增大其在识别中的权重,在i-vector提取过程中,计算GMM的Baum-Welch统计量时,不同帧有不同的权重,对于语音帧{x1,…,xi,…xN}来说,权重分别为{α1,…,αi,…,αN},且{αi≥0,i=1,…,N}:
在说话人识别中,GMM用于建模从说话人的语句中提取出频谱特征的概率密度,对于一个D维的特征矢量xi,概率密度函数如下所示:
式中是一个D维的高斯分布,mk是均值矢量,∑k是对角协方差矩阵,wk是第k个高斯分量的权重,满足K是高斯分量的总数,是GMM的参数集;
给定从语句中提取的N个特征矢量,θ的最大似然估计将会用来最大化下式的似然:
使用对数似然J(θ)作为优化目标,
对于每个特征矢量xi引入权重参数αi,相应的对数似然目标函数为:
引入一个辅助函数
其中引入了一个中间变量:
其中的C是非负常数项:
其中,是最大期望算法中前一次的迭代的参数估计,且并且满足和对于每一次迭代,要使最大化,就可以使J(θ)的值越来越大,直到收敛;因为是θ的凹函数,静止点即是优化解;
于是,mk和∑k可以由下式计算得出:
其中的diag是对角化算子,只保留矩阵中的对角线条目,随后利用拉格朗日乘子法来优化关于wk的函数;
通过解改进的wk为:
在下一次迭代时,首先用更新后的wk,mk和∑k来计算接下来继续更新参数
对说话人i-vector提取流程包括:
从UBM均值中提取了预先训练好的说话人和信道无关的超矢量μKD×1之后,i-vector可以用下式提取ωR×1:
M=μ+Tω
在这里,MKD×1是经过自适应的GMM的均值超矢量,TKD×R是一个对说话人和信道子空间建模的低秩矩阵,ωR×1是一个服从标准正态分布的随机矢量称为i-vector,矩阵T建模了全变量子空间,并且已经使用EM算法经训练数据训练过;
对于测试语音段,通过加权GMM算法,可以得到一个加权的M,归结为下面的零阶和一阶BW统计量:
集中的一阶统计量如下:
这里μk是μ的第k个子向量,
当令时,即不进行加权时,加权的GMM提取出的i-vector与传统方法提取出的i-vector保持一致;
最终,一段语音的i-vector可以由下式得到:
其中,IR×R是身份矩阵,NKD×KD是对角线元素为{NkID×D,k=1,…,K}的对角矩阵;是将连接起来以后的超矢量;∑KD×KD是一个在因子分析训练时估计出来的对角矩阵,其对没有包含在全变量子空间矩阵中的残差变量T进行了建模。
2.根据权利要求1所述的基于自适应语音帧加权的说话人识别方法,其特征在于:
对于鲁棒性不同的帧,需要对它们赋予不同的权重,通过将附加噪声添加到测试语音段上,包括:
1)首先,选取white,babble和pink噪声对原始的带噪语音进行二次加噪处理;
2)然后,得到原始语音帧和处理后的语音帧的MFCC特征,并求出二者的欧氏距离;
3)三种距离取平均值后,选取出它们中的最小值并记为dmin,那么语音帧xi被赋予的权重为:
其中,是当语音帧索引为第i帧时,三种加噪语音帧的MFCC所对应的平均欧氏距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910369970.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音控制方法和装置
- 下一篇:交互过程的恢复方法、装置及设备