[发明专利]一种基于自适应语音帧加权的说话人识别方法有效

申请号：	201910369970.1	申请日：	2019-05-06
公开（公告）号：	CN110085236B	公开（公告）日：	2021-02-09
发明（设计）人：	邹霞;张星昱;孙蒙;吴彭龙;时文华;张雄伟;贾冲;李莉	申请（专利权）人：	中国人民解放军陆军工程大学
主分类号：	G10L17/12	分类号：	G10L17/12;G10L17/20;G10L17/04;G10L25/24
代理公司：	深圳市威世博知识产权代理事务所(普通合伙) 44280	代理人：	李庆波
地址：	210000 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自适应语音加权说话识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于自适应语音帧加权的说话人识别方法，利用带噪语音段中存在的各语音帧信噪比不一致的特性，将信噪比高的语音帧加重权，信噪比低的帧加弱权，并将其提取为对应的MFCC特征，从而构建出含有帧加权信息的GMM并提取i‑vector。在此基础上实现了说话人识别任务，使得说话人识别在噪声环境下依然有较好的性能。

技术领域

本发明属于语音信号处理技术领域，特别是一种基于自适应语音帧加权的说话人识别方法。

背景技术

说话人识别技术(也称声纹识别技术)属于生物认证技术的一种，是一项根据语音波形中反映说话人生理和行为特征的语音参数，自动识别说话人身份的技术。说话人识别在个性化人机交互、军事斗争、信息安全及多媒体娱乐领域都有着广阔的应用前景。例如，通过说话人声纹自动判别出访客身份，从而提供个性化、贴身化服务。

现有的说话人识别方法主要包括：基于高斯混合模型的方法、基于UBM-MAP(universal background model,maximum a posteriori)架构的方法、基于i-vector的说话人识别方法、基于DNN(Deep Neural Network)的说话人识别方法、基于CNN(Convolutional Neural Network)的说话人识别方法。

尽管声纹识别的研究已有半个世纪之久，但现有的声纹识别系统仍存在许多困难，还远远达不到社会对其实用化的要求，主要存在的问题有：

1.尚未找到简单、可靠的说话人语音特征参数。语音信号中既包含了说话人的语义信息，也包含了说话人发声特征的个性信息，是语音特征和说话人特征的混合体，到目前为止，还没有很好的方法将说话人的个体特征从语音特征中分离出来，也没有找到简单的声学特征参数用以可靠地识别说话人。

2.语音信号的漂移性。即使对于同一说话人和同一文本，语音信号也有很大的变异性，说话人的语音特征不是固定不变的，它具有时变特征，常常与说话人所处的环境、情绪、健康状况有密切关系，会随着时间的推移和年龄的变化而变化。另外，传输语音的通信信道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异性本质上说是说话人特征空间发生移动，说话人模式发生变异，从而增加识别过程中的不确定性。说话人识别中存在的噪声、多通道、时飘、情绪等热点都属于这个方面。

3.大规模识别系统。说话人识别系统要将特征空间划分为N个子空间(N＝说话人数)，当说话人自动识别系统中的N增多时，说话人识别系统的性能将受到极大的挑战。

发明内容

本发明要解决的技术问题是提供基于自适应语音帧加权的说话人识别方法，解决现有技术中i-vector说话人识别框架中，噪声的干扰对识别结果的影响。

为解决上述问题，本发明提供的解决方案是提供一种基于自适应语音帧加权的说话人识别方法，第一步，基于训练数据得到通用背景高斯模型，包括：

A1：通过最大期望算法，利用训练数据训练出256个中心的通用背景高斯模型，返回GMM超参数均值、均方差矩阵和权重；

A2：提取得到的所述通用背景高斯模型的Baum-Welch零阶统计量N_g和一阶统计量F_g，其中：

其中，p(g|O_t，λ_ubm)表示给定观测o_t后，所述通用背景高斯模型的第g个分量的后验概率；

A3：通过最大期望算法从训练集中学习一个全变量子空间T，假设因子分析的模型为：

M＝m+T·x

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国人民解放军陆军工程大学，未经中国人民解放军陆军工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】