[发明专利]基于高低频动静特征的声纹识别方法有效
申请号: | 201911137708.0 | 申请日: | 2019-11-19 |
公开(公告)号: | CN110931022B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 魏建国;张琳;张瑞腾 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L17/20 | 分类号: | G10L17/20;G10L17/02;G10L17/04;G10L25/18;G10L25/24;G10L25/45 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 低频 动静 特征 声纹 识别 方法 | ||
1.一种基于高低频动静特征的声纹识别方法,其特征是,定义高低频的分界频率2.5kHz,在线性倒谱频率系数LFCC和对数能量谱基础流程上,针对高频和低频,分别设计两种梯形滤波器,分别提取低频的静态特征、提取高频的动态特征,并将其作为声纹识别分类器的输入,最终输出声纹识别认证结果;具体步骤如下:
特征提取前的数据准备步骤:
对数据库中的语音信号进行数据准备,划分训练集、验证集、测试集;
并进行语音活动检测VAD和倒谱均值归一化CMN处理;
特征提取步骤:
1)数据预处理:把每一段语音信号经过预加重、分帧、加窗、快速傅里叶变换,其中,窗函数为Povey窗;
FFT点数设置为512,窗长25ms,窗移10ms;
2)静态特征提取:
设置高低频滤波器,滤波器由一组40维的三角滤波器组成,整体形状为梯形,高频滤波器对高频进行加强,低频进行抑制,低频滤波器对低频进行加强,高频进行抑制;
将滤波器Ψi(k)应用到经过快速傅里叶变换FFT变换的音频上,得到40维的高频对数滤波能量谱Hi-LFBE,和低频对数滤波能量谱Lo-LFBE;
其中,i是滤波器序号,e(i)是第i个滤波器的能量,X(k)是语音信号经过FFT变换之后的结果,Ψi(k)是第i个滤波器;
最后进行离散余弦变换DCT操作,保留前19维,舍弃第0维,得到高频线性率倒谱系数Hi-LFCC和低频线性倒谱系数Lo-LFCC:
其中,cm是m个倒谱系数,Q是滤波器总个数;
3)动态特征提取:
在静态特征基础上采用delta方法对一阶动态和二阶动态进行特征提取;
说话人分类模型训练步骤:
将训练集中的音频提取特征作为输入,训练基于高斯混合模型和通用背景模型GMM-UBM的i-vector模型和概率线性判别分析程序PLDA打分模型;
说话人确认打分步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911137708.0/1.html,转载请声明来源钻瓜专利网。