[发明专利]基于高低频动静特征的声纹识别方法有效
申请号: | 201911137708.0 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110931022B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 魏建国;张琳;张瑞腾 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L17/20 | 分类号: | G10L17/20;G10L17/02;G10L17/04;G10L25/18;G10L25/24;G10L25/45 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 低频 动静 特征 声纹 识别 方法 | ||
本发明涉及模式识别、声纹识别,为提出一种针对声音信号进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear‑frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。本发明主要应用于声音识别场合。
技术领域
本发明涉及模式识别,声纹识别领域,具体是涉及一种基于高低频特征的声纹识别方法,用于更高效的针对不同声音识别对应说话人。
背景技术
声纹识别,也称作说话人识别,是通过声音来判别说话人身份的技术。虽然不像面部、指纹的个体性差异如此明显可见,但人的声纹都具有独特的特征,通过该特征能够将不同人的身份进行有效区分。然而目前在高混响、强噪声、多信道、多语种等真实复杂应用场景下,导致语音信号传输信号在不断发生变化,说话人识别技术仍无法满足实际应用性能要求,而这又对人机语音交互及信息安全领域技术进一步取得突破至关重要。
在特征层面,和语音识别一样,声纹识别中广泛使用的特征主要是基于Mel域的梅尔倒谱频率系数(Mel-frequency cepstral coefficients,MFCC)和Fbank特征,即针对人耳的感知特性,在低频具有较高的频率分辨率。但是对于声纹识别任务,使用Mel域的特征是有问题的,Mel域可以很好地提取低频信息,而大多数的文本信息也存在于低频,对于声纹识别来说,文本内容信息应该被抑制。
而很多感知实验表明,人的静态个性化特征主要集中在2.5k Hz以上,尤其是下咽腔中的喉前庭和梨状窝引起的共振。而动态特征则主要是由于相对舌体大小导致的低频范围上共振峰的变化,集中于低频。
通过本发明可以更具有针对性的提取说话人的个性化特征,大大提高了特征提取的针对性和声纹识别的鲁棒性。
发明内容
为克服现有技术的不足,本发明旨在基于言语生成的基础理论,提出一种针对声音信号,在频域范围内对高频和低频分别进行提取静态和动态特征,从而进行更为鲁棒的声纹识别方法,所提供的发明可以更好的提取包含更为鲁棒的个性化特征,最终在说话人识别任务上得到更好的识别结果。为此,本发明采取的技术方案是,基于高低频动静特征的声纹识别方法,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC(Linear-frequency cepstral coefficients)和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果。
具体步骤如下:
(1)特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD(Voice Activity Detection)和倒谱均值归一化CMN(Cepstral Mean Normalization)处理;
(2)特征提取步骤:
对语音信号分帧、加窗、短时傅里叶变换;
设计高低频滤波器,提出高低频滤波器振幅特征提取方法;
对于高频特征提取静态特征,对于低频提取动态信息;
(3)说话人分类模型训练步骤;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911137708.0/2.html,转载请声明来源钻瓜专利网。