[发明专利]语音处理方法、装置和电子设备有效
申请号: | 202110470941.1 | 申请日: | 2021-04-28 |
公开(公告)号: | CN114038465B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 董林昊;蔡猛;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G10L15/26 | 分类号: | G10L15/26 |
代理公司: | 泰和泰律师事务所 51219 | 代理人: | 祝海燕 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 处理 方法 装置 电子设备 | ||
本公开实施例公开了语音处理方法、装置和电子设备。该方法的一具体实施方式包括:接收待识别的语音块作为当前语音块,其中,语音块包括过去帧、当前帧和将来帧;基于当前语音块,执行如下语音识别步骤:基于当前语音块进行语音识别,得到当前帧的语音识别结果和将来帧的语音识别结果;确定是否存在当前语音块的前一个语音块;若存在,则利用当前语音块的当前帧的语音识别结果对目标识别结果进行更新;输出当前语音块的将来帧的语音识别结果。该实施方式可以降低语音识别结果的输出延迟。
技术领域
本公开实施例涉及计算机技术领域,具体涉及语音处理方法、装置和电子设备。
背景技术
流式语音识别作为语音产品的重要应用场景之一,对高准确度和低延迟均有着较强的要求。为了提升流式语音的识别准确度,常使用双向神经网络来进行声学建模。自注意力网络(Self-Attention Networks,SAN)作为其中的一种,凭借计算并行性高、建模效果强的特点在语音产品中的使用日益增多。但在SAN的建模过程中,随着利用的将来帧信息增多,其建模后的识别准确度虽会相应提升,但是识别延迟亦会相应增加。如何在保证识别准确度不变的情况下,能够低延迟地产生识别结果,是基于SAN的流式语音识别产品中值得关注的技术问题。
发明内容
提供该公开内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该公开内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
本公开实施例提供了一种语音处理方法、装置和电子设备,可以在保证识别准确度不变的情况下,降低语音识别结果的输出延迟。
第一方面,本公开实施例提供了一种语音处理方法,包括:接收待识别的语音块作为当前语音块,其中,语音块包括过去帧、当前帧和将来帧;基于当前语音块,执行如下语音识别步骤:基于当前语音块进行语音识别,得到当前帧的语音识别结果和将来帧的语音识别结果;确定是否存在当前语音块的前一个语音块,其中,前一个语音块的当前帧在当前语音块的当前帧之前且与当前语音块的当前帧相邻;若存在,则利用当前语音块的当前帧的语音识别结果对目标识别结果进行更新,其中,目标识别结果包括前一个语音块的将来帧的语音识别结果;输出当前语音块的将来帧的语音识别结果。
第二方面,本公开实施例提供了一种语音处理装置,包括:接收单元,用于接收待识别的语音块作为当前语音块,其中,语音块包括过去帧、当前帧和将来帧;识别单元,用于基于当前语音块,执行如下语音识别步骤:基于当前语音块进行语音识别,得到当前帧的语音识别结果和将来帧的语音识别结果;确定是否存在当前语音块的前一个语音块,其中,前一个语音块的当前帧在当前语音块的当前帧之前且与当前语音块的当前帧相邻;若存在,则利用当前语音块的当前帧的语音识别结果对目标识别结果进行更新,其中,目标识别结果包括前一个语音块的将来帧的语音识别结果;输出当前语音块的将来帧的语音识别结果。
第三方面,本公开实施例提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的语音处理方法。
第四方面,本公开实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的语音处理方法的步骤。
本公开实施例提供的语音处理方法、装置和电子设备,通过接收待识别的语音块作为当前语音块;之后,基于上述当前语音块,执行如下语音识别步骤:基于当前语音块进行语音识别,得到当前帧的语音识别结果和将来帧的语音识别结果;确定是否存在当前语音块的前一个语音块;若存在,则利用当前语音块的当前帧的语音识别结果对目标识别结果进行更新;输出当前语音块的将来帧的语音识别结果。通过这种方式,可以对当前语音块的将来帧的语音识别结果进行上屏呈现,并在接收到后一个语音块的当前帧的语音识别结果之后,利用后一个语音块的当前帧的语音识别结果对当前语音块的将来帧的语音识别结果进行更新,从而可以在保证识别准确度不变的情况下,降低语音识别结果的输出延迟。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110470941.1/2.html,转载请声明来源钻瓜专利网。