[发明专利]基于矢量量化的声纹识别方法及系统无效
申请号: | 201110450364.6 | 申请日: | 2011-12-29 |
公开(公告)号: | CN102509547A | 公开(公告)日: | 2012-06-20 |
发明(设计)人: | 霍春宝;赵立辉;崔文翀;张彩娟;曹景胜 | 申请(专利权)人: | 辽宁工业大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L17/00 |
代理公司: | 锦州辽西专利事务所 21225 | 代理人: | 李辉 |
地址: | 121000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 矢量 量化 声纹 识别 方法 系统 | ||
技术领域
本发明属于语音信号处理技术,特别涉及一种用说话人的语音信号来辨识说话人身份的基于矢量量化的声纹识别方法及系统。
背景技术
近年来,随着信息处理与人工智能技术的广泛应用,以及人们对快速有效身份验证的迫切要求,传统密码认证的身份识别已经逐渐失去了他的地位,而在生物识别领域中,基于说话人语音的身份识别技术却受到了越来越多的人的青睐。
由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同,因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、不需记忆、使用方便等优点外,还具有下列特性:首先,它的认证方式易于接受,使用的“密码”为声音,开口即得;其次,识别文本的内容可以随机,不易窃取,安全性能比较高;第三,识别使用的终端设备为麦克风或电话,成本低廉且易于和现有通信系统相结合。因此,声纹识别的应用前景非常广阔:在经济活动中,可以实现各银行的汇款、余额查询、转账等;在保密安全中,可以用指定的声音检查秘密场所的人员,其只响应特定说话人;在司法鉴定中,可以根据即时录音判断疑犯中作案者的真实身份;在生物医学中,可以使该系统只响应患者的命令,从而实现对使用者假肢的控制。
声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类:一类是主要体现说话人发音器官生理特性的低层特征,如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等;另一类是主要体现说话人用语习惯、发音特点的高层特征,如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的,容易受到假设模型的影响,高层特征虽然有些文献中使用,但识别率并不是很高。
针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW)法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序,实时性能较差,适合基于孤立字(词)的说话人识别;GMM主要用于大量语音的说话人识别,需要较多的模型训练数据,较长的训练时间及识别时间,而且还需要较大的内存空间。在ANN模型中,对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛,而且会存在过学习的问题。在基于VQ的说话人识别中,模板匹配不依赖参数的时间顺序,实时性比较好,而且建模数据少,判决速度快,复杂度也不高。基于矢量量化模型的说话人识别原理是把每个说话人的语音信号特征参数量化成码本,保存在语音库中作为说话人的语音模板,识别时将待识别语音的特征矢量与语音库中已有的某一个说话人的语音模板进行比较,计算各自的总平均量化失真,以最小失真的语音模板作为识别结果。然而不足之处是语音信号是成椭圆状的正态分布,各矢量的分布不相等,在基于传统的VQ说话人识别系统的欧氏距离测度中没有得到很到的反应。
发明内容
本发明要解决的技术问题是提出一种基于矢量量化的声纹识别方法及系统,具有良好识别性能和抗噪能力,识别效果比较好,建模数据少,判决速度快,而且复杂度不高。
一种基于矢量量化的声纹识别方法,具体步骤如下:
1、语音信号的采集:以程控交换综合实验箱的话机作为采集语音的终端设备,通过语音卡采集语音信号;
2、语音信号预处理:通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率相结合的端点检测法;预加重,加重系数的取值为0.90~1.00;
3、语音信号特征参数提取:采用MFCC参数,MFCC的阶数为12~16;
4、模板训练:采用LBG聚类算法为系统中的每一个说话人建立一个码本存储在语音数据库中作为该说话人的语音模板;
5、声纹辨识:通过将采集到的待识别语音信号特征参数与库中通过步骤1、2、3、4已建立的说话人语音模板进行比较,并根据加权欧式距离测度进行判断,若对应的说话人模板使得待识别的话者语音特征向量X具有最小平均距离测度,则认为识别出说话人。
上述的语音信号特征参数提取步骤如下:
(1)将预处理后的语音信号进行短时傅里叶变换得到其频谱X(k),语音信号的DFT公式为:
(1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工业大学,未经辽宁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110450364.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:微型面包车背门限位器加强件切边模具
- 下一篇:具有备用刀片的实用划刀