[发明专利]一种语音处理方法及装置有效

申请号：	201811457674.9	申请日：	2018-11-30
公开（公告）号：	CN111341299B	公开（公告）日：	2021-10-15
发明（设计）人：	张仕良;雷鸣;李威;姚海涛	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	李辉;徐焕
地址：	英属开曼***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种语音处理方法及装置。所述方法包括：对语音信号进行分帧处理，生成多个语音帧；分别提取所述多个语音帧对应的声学特征；利用声学模型按照帧移为第一数量的频率处理所述声学特征，以在单次帧移处理后获取第二数量的后验概率向量，所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率，所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。利用本申请提供的语音处理方法，可以在保证声学模型输出准确性的基础上，极大地提高声学模型的计算效率，提高语音识别的识别效率。

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音处理方法及装置。

背景技术

近几年随着深度学习技术的使用，基于深度神经网络的语音识别系统性能获得了极大的提升，开始慢慢走向实用化。基于语音识别的语音输入、语音转写、语音检索和语音翻译等技术得到了广泛的应用。声学模型是语音识别系统的一个核心模块，也是目前的研究热点。据统计，利用声学模型对语音信号进行解码的过程是整个解码过程中最消耗计算资源的环节，因此，降低声学模型的计算成本是比较重要的技术需求。

对于所述声学模型，输入的是语音信号中每个语音帧提取的声学特征。而每个语音帧的声学特征理论上对应于一个建模单元，所述建模单元例如可以包括音素状态(state)、绑定的音素状态(CD-state)、音素(phone)、绑定的音素(CD-phone)中的一种。在汉字中，所述建模单元例如可以包括声母、韵母等。基于此，所述声学模型的输出是该语音帧的声学特征相对于多个预设建模单元的后验概率分布。这样，输入的多个声学特征可以被转化成多个后验概率分布，然后，可以结合语言模型进行解码，得到所述语音信号的识别结果。对于一个普通的汉字，通常持续的时间为100-200ms，相对应的语音帧就会持续10到20帧。那么，若利用上述方式处理一个汉字对应的语音信号，则需要声学模型进行10-20次的计算，因此，利用现有技术的声学模型处理语音信号，需要消耗很大的计算资源。

因此，现有技术中亟需一种计算成本较低的声学模型。

发明内容

本申请实施例的目的在于提供一种语音处理方法及装置，可以在保证声学模型输出准确性的基础上，极大地提高声学模型的计算效率，提高语音识别的识别效率。

本申请实施例提供的语音处理方法及装置具体是这样实现的：

一种语音处理方法，所述方法包括：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

利用声学模型按照帧移为第一数量的频率处理所述声学特征，以在单次帧移处理后获取第二数量的后验概率向量，所述后验概率向量包括声学特征分别对应于多个预设建模单元的概率，所述声学模型基于低帧率(LFR)算法和多帧预测(MFP)算法的结合训练得到。

一种语音处理装置，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现下述步骤：

对语音信号进行分帧处理，生成多个语音帧；

分别提取所述多个语音帧对应的声学特征；

一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现所述语音处理方法的步骤。