[发明专利]用于语音识别的音频数据处理方法及装置在审
申请号: | 202011543521.3 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112634907A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 罗海斯·马尔斯;胡正倫 | 申请(专利权)人: | 百果园技术(新加坡)有限公司 |
主分类号: | G10L15/28 | 分类号: | G10L15/28;G10L25/87 |
代理公司: | 北京泽方誉航专利代理事务所(普通合伙) 11884 | 代理人: | 陈照辉 |
地址: | 巴西班让路枫树*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 识别 音频 数据处理 方法 装置 | ||
1.用于语音识别的音频数据处理方法,其特征在于,包括:
当缓冲区中存储的音频比特流大于目标检测长度时,确定所述音频比特流是否大于最大检测长度;
根据确定出的所述音频比特流是否大于最大检测长度的结果,确定对应的端点检测器对所述音频比特流进行端点检测,所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器;
根据所述端点检测的结果,对所述音频比特流进行处理得到用于语音识别的音频样本。
2.根据权利要求1所述的音频数据处理方法,其特征在于,所述根据确定出的是否大于最大检测长度的结果,确定对应的端点检测器对所述音频比特流进行端点检测,包括:
如果所述音频比特流不大于所述最大检测长度,则通过静默描述符检测器以及基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测。
3.根据权利要求2所述的音频数据处理方法,其特征在于,所述通过静默描述符检测器以及基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测,包括:
对所述音频比特流中的静默描述符进行检测,如果检测到所述静默描述符,则根据所述静默描述符的位置确定所述音频比特流的端点。
4.根据权利要求3所述的音频数据处理方法,其特征在于,如果未检测到所述静默描述符,则基于长期网络模型的第一端点检测器对所述音频比特流进行端点检测,将检测到的端点确定为所述音频比特流的端点。
5.根据权利要求4所述的音频数据处理方法,其特征在于,所述长期网络模型由所述第二端点检测器的卷积层输出、递归层和全连接层组成。
6.根据权利要求1所述的音频数据处理方法,其特征在于,如果所述音频比特流大于所述最大检测长度,则通过基于短期网络模型的第二端点检测器对所述音频比特流进行端点检测,将检测到的端点确定为所述音频比特流的端点。
7.根据权利要求6所述的音频数据处理方法,其特征在于,所述短期网络模型由卷积层和全连接层组成。
8.根据权利要求1-7中任一项所述的音频数据处理方法,其特征在于,所述根据所述端点检测的结果,对所述音频比特流进行处理得到用于语音识别的音频样本,包括:
如果在所述音频比特流中检测到端点,则根据所述端点所处的位置进行分段和解码处理,生成多个用于语音识别的音频样本。
9.根据权利要求8所述的音频数据处理方法,其特征在于,如果在所述音频比特流中未检测到端点,则对所述音频比特流进行解码和缓存处理。
10.用于语音识别的音频数据处理装置,其特征在于,包括:
音频长度检测模块,用于当缓冲区中存储的音频比特流大于目标检测长度时,确定所述音频比特流是否大于最大检测长度;
音频端点检测模块,用于根据确定出的所述音频比特流是否大于最大检测长度的结果,确定对应的端点检测器对所述音频比特流进行端点检测,所述端点检测器包括静默描述符检测器、基于长期网络模型的第一端点检测器以及基于短期网络模型的第二端点检测器;
音频处理模块,用于根据所述端点检测的结果,对所述音频比特流进行处理得到用于语音识别的音频样本。
11.一种用于语音识别的音频数据处理设备,所述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一项所述的用于语音识别的音频数据处理方法。
12.一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-9中任一项所述的用于语音识别的音频数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百果园技术(新加坡)有限公司,未经百果园技术(新加坡)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011543521.3/1.html,转载请声明来源钻瓜专利网。