[发明专利]基于MFCC和向量元学习的声纹识别方法在审

申请号：	202011220705.6	申请日：	2020-11-05
公开（公告）号：	CN112397074A	公开（公告）日：	2021-02-23
发明（设计）人：	林科;满瑞	申请（专利权）人：	桂林电子科技大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/18;G10L17/04;G10L25/24;G10L17/08
代理公司：	桂林市华杰专利商标事务所有限责任公司 45112	代理人：	杨雪梅
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 mfcc 向量学习声纹识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于MFCC和向量元学习的声纹识别方法，包括如下步骤：语音预处理；特征提取步骤；模型训练步骤；模式匹配步骤。这种方法，分类精细，识别准确率高。

技术领域

本发明涉及声纹识别领域，具体是一种基于MFCC和向量元学习的声纹识别方法。

背景技术

声纹识别，也称作说话人识别，是一种通过声音判别说话人身份的技术。从直觉上来说，声纹虽然不像人脸、指纹的个体差异那样直观可见，但由于每个人的声道、口腔和鼻腔也具有个体的差异性，因此反映到声音上也具有差异性。如果说将口腔看作声音的发射器，那作为接收器的人耳生来也具备辨别声音的能力。

MFCC：梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients)，将时域的语音变为频域，对频域的信号进行分段滤波，得出不同频率段的占比，所得到的占比系数组成的矩阵即梅尔倒频谱系数。

元学习：从网络结构角度讲，元学习由两种网络组成——meta-net和net，一方面net从meta-net中获取知识，另一方面meta-net观察net的表现改进自身。

原型网络：先把样本投影到一个空间，计算每个样本类别的中心，在分类的时候，把输入投影到新的特征空间，通过神经网络，把输入(比如图像)转化为一个新的特征向量，使得同一类的向量之间的距离比较接近，不同类的向量距离比较远。同时，计算每个类别的均值表示该类的原型prototype。通过对比目标到每个中心的距离，从而分析出目标的类别。

目前常用的声纹识别的主流方法有动态时间规整(DTW)、隐马尔科夫刚理论(HMM)、矢量量化(VQ)等。然而，这些方法都具有识别的准确率较低、需要进行大量的计算、缺乏动态的训练或者过度依赖原话者等缺点。

对于原型网络而言，其应用的范围不仅仅在单样本/小样本的学习过程中，同时还可以应用在零样本的学习方式。对于这种应用的思路是：尽管我们没有当前分类的数据样本，但是如果能够在更高的层次中生成分类的原型表示(元信息)。

发明内容

针对现有声纹识别主流算法的缺陷，本发明的目的是提供基于MFCC和向量元学习的声纹识别方法。这种方法，分类精细，识别准确率高。

基于MFCC和向量元学习的声纹识别方法，包括如下步骤：

语音预处理：录制语音信号，得到语音数据集，将语音数据集分为训练集和测试集，然后将语音数据集内的所有语音信号进行语音数据增强和语音预加重处理；

特征提取步骤：采用MFCC对语音预处理后的训练集中的语音信号进行特征提取，得到MFCC特征参数；

模型训练步骤：将训练集语音信号的MFCC特征参数输入原型网络中进行模型训练；

模式匹配步骤：从测试集待识别语音信号中提取MFCC特征参数，输入训练好的原型网络中计算，使用欧几里得距离作为距离度量，被识别语音所提取的特征量必须与训练得到的每个人的模型特征参数进行比较，找到相似度最近的那个作为辨认的结果。

所述语音预处理步骤包括：

语音数据增强子步骤：通过SEEED的语音采集板采集人们平时说话的语音信号，通过praat软件对采集的语音信号正向播放、倒向播放和随机删减部分片段，来对语音信号进行增强操作；

语音预加重：将语音信号通过一个高通滤波器，提升高频部分，使信号的频谱变得平坦，保持在低频到高频的整个频带中，能用同样的信噪比求频谱，同时消除发声过程中声带和嘴唇的效应，来补偿语音信号受到发音系统所抑制的高频部分，突出高频的共振峰。

所述特征提取步骤包括：

预加重子步骤：将语音信号通过滤波器提升高频部分；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学，未经桂林电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011220705.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种酯类化工产品加工中用的储存容器
下一篇：一种基于速食食品加工用的合格检测装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于MFCC和向量元学习的声纹识别方法在审

专利文献下载