[发明专利]基于矢量量化和高斯混合模型的说话人识别系统在审
申请号: | 201710003175.1 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108269573A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 杨育斌;沈金伟;柯宗贵 | 申请(专利权)人: | 蓝盾信息安全技术有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510665 广东省广州市广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高斯混合模型 矢量量化 说话人识别系统 倒谱系数 混合模型 梅尔频率 信息特征 | ||
本发明公开了一种基于矢量量化和高斯混合模型的说话人识别系统,该系统采用梅尔频率倒谱系数(MFCC)作为说话人的信息特征,对不同说话人的MFCC特征值建立高斯混合模型(GMM)和矢量量化(VQ)模型的混合模型系统,从而达到对说话人进行辨认或者确认的目的。
技术领域
本发明属于语音识别技术领域,特别涉及基于矢量量化和高斯混合模型的说话人识别系统。
背景技术
在说话人识别系统中特征提取是最重要的一环,特征提取表示从说话人的语音信号中提取出表示说话人个性的基本特征,目前在说话人识别中使用最多的特征是LPC倒谱系数、基音周期、MFCC、线性预测系数LPC等。
从语音信号中提取到特征向量后,就需要针对特征向量建立匹配模型。目前根据各种特征而使用到的模式匹配方法包括概率统计方法、动态时间规整方法、VQ、GMM、人工神经网络方法等。VQ的优点是识别速度快,识别效果较好;GMM的优点不需要时间调整,可节约判决时的计算时间和存储量。
发明内容
本发明的目的是通过基于矢量量化和高斯混合模型的说话人识别系统,实现现实生活中安全访问、身份鉴定等应用场景里需要辨识使用人身份的实际需求,通过从说话人的一段语音中提取个人信息特征,然后对这些个人特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。
本系统包含训练阶段和识别阶段两个阶段。
训练阶段:每一个说话人说出一段文字材料后获得的语音信号(定义为训练样本),对每一个训练样本建立匹配模型,每一个说话者对应一个模型。具体流程如下:
(1)原始数据预处理。录音收集到说话人的原始语音数据后,需要经过预处理。预处理包括断点检测、预加重、分帧、加窗。
(2)特征值提取。本方案选取MFCC作为特征向量。将预处理后的语音经过快速傅里叶变换后由时域信号变为频域信号,然后取平方值、经过三角形滤波器组后取对数、再经过DCT变换,得到MFCC。
(3)建模。本方案的匹配模型包括GMM和VQ。
识别阶段:从待识人的语音数据(定义为测试样本)提取特征值,提取特征值中的参数与每一个匹配模型中的参数进行比较,通过每一个匹配模型计算得出待识别人的概率值,若某模型计算得的概率值最高并且该概率值高于给定阈值,则标签待识人为该模型的说话者。
(1)原始数据预处理。录音收集到待识别人的原始语音数据后,需要经过预处理。预处理包括断点检测、预加重、分帧、加窗。
(2)特征值提取。将预处理后的语音经过快速傅里叶变换后由时域信号变为频域信号,然后取平方值、经过三角形滤波器组后取对数、再经过DCT变换,得到MFCC
(3)识别。设待识别的MFCC特征矢量为Z。
本发明技术方案带来的有益效果:
本技术方案同时使用两个识别模型对待识别特征进行辨识,能有效地改善单个识别模型造成的识别率正确率低的问题。此外,假如测试样本是未训练的说话人的语音,单个识别模型的系统只能通过阈值来进行判断,而本方案的识别系统则可以通过两个模型的识别结果来进行判断,当且仅当识别结果一致时,才将识别结果标签该测试样本,否则标签该样本为未训练样本(即实际场景中的陌生人)。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明提出的MFCC特征提取流程示意图;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术有限公司,未经蓝盾信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710003175.1/2.html,转载请声明来源钻瓜专利网。