[发明专利]一种基于自适应语音帧加权的说话人识别方法有效
申请号: | 201910369970.1 | 申请日: | 2019-05-06 |
公开(公告)号: | CN110085236B | 公开(公告)日: | 2021-02-09 |
发明(设计)人: | 邹霞;张星昱;孙蒙;吴彭龙;时文华;张雄伟;贾冲;李莉 | 申请(专利权)人: | 中国人民解放军陆军工程大学 |
主分类号: | G10L17/12 | 分类号: | G10L17/12;G10L17/20;G10L17/04;G10L25/24 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李庆波 |
地址: | 210000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种基于自适应语音帧加权的说话人识别方法,利用带噪语音段中存在的各语音帧信噪比不一致的特性,将信噪比高的语音帧加重权,信噪比低的帧加弱权,并将其提取为对应的MFCC特征,从而构建出含有帧加权信息的GMM并提取i‑vector。在此基础上实现了说话人识别任务,使得说话人识别在噪声环境下依然有较好的性能。 | ||
搜索关键词: | 一种 基于 自适应 语音 加权 说话 识别 方法 | ||
【主权项】:
1.一种基于自适应语音帧加权的说话人识别方法,其特征在于:第一步,基于训练数据得到通用背景高斯模型,包括:A1:通过最大期望算法,利用训练数据训练出256个中心的通用背景高斯模型,返回GMM超参数均值、均方差矩阵和权重;A2:提取得到的所述通用背景高斯模型的Baum‑Welch零阶统计量Ng和一阶统计量Fg,其中:![]()
其中,p(g|ot,λubm)表示给定观测ot后,所述通用背景高斯模型的第g个分量的后验概率;A3:通过最大期望算法从训练集中学习一个全变量子空间T,假设因子分析的模型为:M=m+T·x其中,M是从测试集自适应调整UBM后得到的均值超矢量,m是UBM的均值超矢量,x是遵循标准正态分布的随机矢量,称作i‑vector;第二步,通过训练数据对高斯概率线性判别分类器进行训练,包括:B1:提取训练集的i‑vector来训练高斯概率线性判别分类器,使用最大期望算法来从训练集的i‑vector学习得到高斯概率线性判别分类器;假设i‑vector的因子分析模型为:![]()
为特征音子空间的最大似然估计,x代表i‑vector,m是训练集的i‑vector的均值,y~N(0,I)是潜在因子矢量,∈表示没有包含在潜在变量中的随机噪声残差项;B2:高斯概率线性判别分类器的对应参数经训练后返回,对应参数包括:特征音矩阵、残差噪声的协方差矩阵、i‑vector的均值、权值转化;第三步,根据注册信息对识别结果进行打分,将得分最高者辨识为目标说话人;C1:对待识别说话人进行注册,首先导入待注册说话人的MFCC特征,接下来使用最大后验概率算法将先前训练好的所述通用背景高斯模型自适应调整为表示各个说话人的GMM模型,并根据GMM超参数提取代表各个说话人身份特征的i‑vector;C2:对待识别说话人进行打分,首先导入待识别说话人的MFCC特征,之后提取各个说话人的i‑vector,并根据步骤C1中得到的已注册说话人的i‑vector进行打分,使用高斯概率线性判别分类器计算i‑vector试验的验证分数,计算如下:
注册说话人和目标说话人分别记为x1和x2,x1和x2通过之前训练的高斯概率线性判别分类器进行建模;通过批次间的对数似然比来描述是相同的说话人(H1)或者是不同的说话人(H0);C3:对得分进行筛选,评分最高的就是待识别说话人所对应的注册说话人的身份。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学,未经中国人民解放军陆军工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910369970.1/,转载请声明来源钻瓜专利网。
- 上一篇:语音控制方法和装置
- 下一篇:交互过程的恢复方法、装置及设备