[发明专利]用于自动语音识别的时域特征提取的方法和系统在审
申请号: | 201910527374.1 | 申请日: | 2019-06-18 |
公开(公告)号: | CN110660382A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 方水英;穆罕默德·凯拉;索姆纳特·保罗;查尔斯·奥古斯丁;特尔博·马吉姆德;林佑泽;托比亚斯·博克雷;戴维·皮尔斯 | 申请(专利权)人: | 英特尔公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L25/24 |
代理公司: | 11258 北京东方亿思知识产权代理有限责任公司 | 代理人: | 宗晓斌 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 时域特征提取 自动语音识别 | ||
本公开涉及用于自动语音识别的时域特征提取的方法和系统。一种系统、制品、和方法提供了用于自动语音识别的时域特征提取。
技术领域
本公开涉及用于自动语音识别的时域特征提取的方法和系统。
背景技术
随着越来越多基于计算机的设备使用语音识别来接收来自用户的命令以便执行一些动作以及将语音转换为用于听写应用的文本或甚至保持与用户的对话(其中在一个或两个方向上交换信息),语音识别系统或自动语音识别器变得越来越重要。这种系统可以独立于说话者(例如,不考虑说话者来识别词的家庭或智能电话语音识别系统),或者可以依赖于说话者(例如,通过使用户重复词来训练系统)。一些系统还可以被配置为理解单个词命令或短句的固定组合,例如,用于操作理解术语“呼叫”或“应答”的移动电话。智能电话、智能扬声器、平板、以及其他设备上的系统可以具有广泛的词汇,例如,用于提供语音激活的搜索引擎并执行其他音频激活任务的虚拟助理。
因此,可以期望自动语音识别(ASR)用于可穿戴设备、智能电话、以及其他小型设备。具有ASR系统的很多小型设备具有有限的存储器、计算能力、和电池容量。主要由于传统的通用数字信号处理器(DSP)执行用于特征提取的快速傅里叶变换(FFT)和其他DSP任务,声学前端特征提取可以具有巨大的计算负担和产生的功率消耗。特征提取对于始终开启的ASR系统变得更重要,在始终开启的ASR系统中,特征提取、语音激活(VA)、和简单关键词检测(KWD)一直在执行其他后续ASR后端复杂任务之前被执行,因此特征提取、VA、和KWD比那些ASR后端复杂任务被更加频繁地执行,从而更加直接地影响能量消耗。这会耗费非常大量的电池功率并不利地影响可以用于小型设备上的其他ASR任务或其他非ASR任务的处理时间。
发明内容
根据本公开的一方面,提供了一种由计算机实现的用于自动语音识别的特征提取的方法,包括:接收输入语音信号;执行增量调制,包括:将所述输入语音信号的采样的表示值与多个阈值等级中的上限阈值和下限阈值进行比较;以及至少提供有效指示符和移位指示符,作为所述增量调制的输出,其中,所述有效指示符指示至少一个阈值等级沿着所述输入语音信号从前一表示值到下个采样的改变,并且其中,所述移位指示符是指示阈值等级的改变的总量的单个值,所述阈值等级的改变包括与所述有效指示符相关联的多个等级从所述前一表示值到所述下个采样的改变;以及使用所述有效指示符和所述移位指示符形成梅尔频率(mel-frequency)相关系数,所述梅尔频率相关系数用于识别所述输入语音信号中的语音。
根据本公开的另一方面,提供了一种由计算机实现的用于自动语音识别的特征提取系统,包括:至少一个处理器;通信地耦合到所述至少一个处理器的存储器;至少一个梅尔频率有限冲激响应(FIR)滤波器,由所述至少一个处理器操作并且被布置为获取声学输入信号的音频数据,所述音频数据包括人类语音,并且所述梅尔频率FIR滤波器输出修改后的梅尔频率系数的总和;以及累加器单元,用于执行帕塞瓦尔定理相关的能量运算(Parseval Theorem-related energy operation),所述能量运算包括使用滤波器输出形成中间系数,所述中间系数用于形成用来识别语音中的词的梅尔频率频谱系数(MFSC)或梅尔频率倒谱系数(MFCC)。
根据本公开的又一方面,提供了至少一个计算机可读介质,包括多个指令,所述多个指令响应于在计算设备上被执行而促使所述计算设备通过以下处理进行操作:获取有效指示符,所述有效指示符指示至少一个阈值等级沿着输入语音信号从所述输入语音信号的前一表示值到所述输入语音信号的下个采样的改变;以及获取移位指示符,所述移位指示符是指示阈值等级的改变的总量的单个值,所述阈值等级的改变包括与所述有效指示符相关联的多个等级从所述前一表示值到所述下个采样的改变;以及根据所述有效指示符的值,使用FIR滤波器的至少一个修改后的梅尔频率系数,形成用于识别所述输入语音信号中的语音的滤波器输出,其中,所述FIR滤波器被布置为通过使用所述移位指示符修改一个或多个梅尔频率系数。
根据本公开的再一方面,提供了一种设备,包括用于执行如上所述的方法的装置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910527374.1/2.html,转载请声明来源钻瓜专利网。