[发明专利]一种用于声纹识别的低功耗模拟域特征向量提取方法有效

申请号：	202010577295.4	申请日：	2020-06-22
公开（公告）号：	CN111667838B	公开（公告）日：	2022-10-14
发明（设计）人：	浦宁;姜汉钧;张春;王志华	申请（专利权）人：	清华大学
主分类号：	G10L17/02	分类号：	G10L17/02;G10L17/18;G10L17/20
代理公司：	西安智大知识产权代理事务所 61215	代理人：	段俊涛
地址：	100084 北京市海淀区1***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于声纹识别功耗模拟特征向量提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种低功耗的基于模拟域的语音特征提取方法，采用模拟域特征提取和数字域识别模型相结合的混合域架构来完成声纹识别。由于经典数字域MFCC特征提取包含FFT、DCT等操作会消耗大量功耗，不满足处于连续工作状态的语音设备唤醒电路对低功耗和低计算量的要求。本发明提出的低维度低硬件开销的模拟域语音特征提取方法可以具体延伸为全模拟滤波特征提取和混合特征提取2种模式，分别适用于对识别准确率要求较高和对超低功耗限制要求严格的应用场景。

技术领域

本发明属于声纹识别技术领域，特别涉及一种用于声纹识别的低功耗模拟域特征向量提取方法。

背景技术

随着电子信息技术的发展，物联网逐渐成为人们关注的焦点。在物联网时代，信息技术正改变着人们与电子设备的交互方式。因为人的声音是一种最自然和最具信息量的人机交互方式，类似语音自动控制的人机交互在智能家居等应用场景中被广泛采用，而其中智能声纹识别或关键词检测唤醒电路具有重要的应用前景。通过语音来唤醒设备能有效提高能量效率，且无需接触，使用方便。智能声纹识别电路以低功耗的工作模式实时采集环境中的音频信号，并检测其中是否存在特定个体的语音信号，当侦测到特定说话人的有效语音信号时，启动唤醒更高层次的系统。

此外，相比于语音活动检测唤醒，声纹识别唤醒能够针对特定说话人发生响应，关键词检测唤醒能够针对特定语音控制命令发生响应。其中一个应用场景是家庭中电视的语音唤醒，如果希望电视只对家长的语音唤醒而不唤醒小孩的语音，就需要对不同说话人进行声纹识别从而判断出具有唤醒权限的用户。同时，声纹识别与其他生物特征识别技术相比还具有方便直接，语音传感采集设备成本低廉等优点。

由于不同说话人的发音器官在形态、大小和尺寸等物理结构方面有差异，加之受年龄、性别、读音习惯等因素的影响，因此不同说话人的发音频率和共振峰不会完全相同。可以说不同说话人的声纹图谱都略有差异，所以通过声纹来识别不同说话人进而判断说话人身份的方式是可行的。声纹识别的传统做法是将语音信号调理放大之后直接经过模-数转换器(ADC)转换成数字信号，在数字域完成特征提取和识别的任务。数字域梅尔频率倒谱系数特征(MFCC) 提取的过程包括对输入的语音信号进行预加重、分帧和加窗这些预处理操作，然后做FFT变换，取模平方，经过Mel三角滤波器组并将输出取对数，最后做 DCT变换。因为其拥有良好的可分辨性，包含语音信息充分，成为语音识别、声纹识别、关键词检测等语音信号处理任务中的经典特征。但是由于MFCC特征提取需要FFT、DCT等操作会消耗大量功耗，且计算复杂度较高，不利于低功耗的硬件实现。

此外，经典MFCC特征通常包含13维静态特征，13维一阶差分系数和13 维二阶差分系数共39维特征。较高的特征维度使得输入后续识别模型例如神经网络的特征比特率也很高，从而神经网络识别模型的参数量和乘累加运算量较大，导致神经网络的功耗较大。这限制了声纹识别从服务器端向边缘端扩展，难以满足电池容量较小且需要连续工作的智能声纹识别设备唤醒应用的需求。

发明内容

为了克服上述现有技术中经典数字域MFCC特征提取存在的主要缺点，本发明的目的在于提供一种用于声纹识别的低功耗模拟域特征向量提取方法，可降低特征输入后续识别模型的比特率，进一步减小识别模型的功耗和计算量，具有低功耗，低维度，低计算复杂度等特点。并可将特征进一步输入数字域神经网络等模型进行声纹识别，对智能声纹识别唤醒等语音信号处理任务的边缘端实现和性能优化产生重要意义。

为了实现上述目的，本发明采用的技术方案是：

一种用于声纹识别的低功耗模拟域特征向量提取方法，输入为麦克风输出的语音信号，从时域和模拟域提取特征，通过构造一组带通滤波器逼近MFCC 特征提取中的Mel三角滤波器组，使得构造的带通滤波器组的中心频率与Mel 三角滤波器组相同，满足非线性对数频率特性，再将模拟滤波输出的时域信号通过ADC后取模平方得到对应特征值。

本发明包括对应于全模拟滤波特征提取的高性能模式和对应于混合特征提取的超低功耗模式两种模式，其中：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010577295.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L17-00 讲话者辨认或验证

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种用于声纹识别的低功耗模拟域特征向量提取方法有效

专利文献下载