[发明专利]语音数据处理方法、装置、设备及存储介质在审
申请号: | 202110441718.4 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113345422A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 王亚东 | 申请(专利权)人: | 北京巅峰科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/26 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 姜凤岩;朱文杰 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 数据处理 方法 装置 设备 存储 介质 | ||
本说明书一个或多个实施例提供了一种语音数据处理方法、装置、设备及存储介质,其中方法包括:获取待处理的语音数据;在各预设的语音数据处理操作中随机选取目标语音处理操作;所述各预设的语音数据处理操作包括:时域掩码、频域掩码、音高变换、音量变换、音频加噪;获取所述目标语音处理操作的语音处理参数所对应的取值范围,在所述取值范围内,随机选取所述目标语音处理操作的语音处理参数的参数值;基于所述参数值,利用所述目标语音处理操作对所述待处理的语音数据进行处理。通过本实施例,能够解决目前扩充语音识别模型的训练样本的数据量时,扩充过程复杂、扩充成本高的问题。
技术领域
本文件涉及数据处理技术领域,尤其涉及一种语音数据处理方法、装置、设备及存储介质。
背景技术
语音识别技术是人工智能领域中的一个重要研究方向。语音识别技术主要是通过各种语音识别模型如ASR(Automatic Speech Recognition,自动语音识别技术)模型,将语音转换为文本。无论针对哪种语音识别模型,训练样本的数据量始终是模型训练的基础。训练样本的数据量越多,训练得到的语音识别模型越准确。现有技术中,通过模型扩充训练样本的数据量。比如,训练神经网络模型,通过神经网络模型对待处理的语音数据进行处理,将处理得到的语音数据作为语音识别模型的训练样本。然而,通过模型扩充训练样本的数据量,必然需要预先训练该模型,因此具有扩充过程复杂、扩充成本高的缺点。
发明内容
本说明书实施例的目的是提供一种语音数据处理方法、装置、设备及存储介质,以解决目前扩充语音识别模型的训练样本的数据量时,扩充过程复杂、扩充成本高的问题。
为解决上述技术问题,本说明书一个或多个实施例是这样实现的:
第一方面,本说明书实施例提供一种语音数据处理方法,包括:
获取待处理的语音数据;
在各预设的语音数据处理操作中随机选取目标语音处理操作;所述各预设的语音数据处理操作包括:时域掩码、频域掩码、音高变换、音量变换、音频加噪;
获取所述目标语音处理操作的语音处理参数所对应的取值范围,在所述取值范围内,随机选取所述目标语音处理操作的语音处理参数的参数值;
基于所述参数值,利用所述目标语音处理操作对所述待处理的语音数据进行处理。
第二方面,本说明书实施例提供一种语音数据处理装置,包括:
数据获取单元,用于获取待处理的语音数据;
操作选取单元,用于在各预设的语音数据处理操作中随机选取目标语音处理操作;所述各预设的语音数据处理操作包括:时域掩码、频域掩码、音高变换、音量变换、音频加噪;
参数设置单元,用于获取所述目标语音处理操作的语音处理参数所对应的取值范围,在所述取值范围内,随机选取所述目标语音处理操作的语音处理参数的参数值;
数据处理单元,用于基于所述参数值,利用所述目标语音处理操作对所述待处理的语音数据进行处理。
第三方面,本说明书实施例提供一种语音数据处理设备,包括:处理器,以及被安排成存储计算机可执行指令的存储器;所述计算机可执行指令在被执行时使所述处理器实现上述第一方面所述的方法的步骤。
第四方面,本说明书实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京巅峰科技有限公司,未经北京巅峰科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110441718.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:气化细渣浮选分离方法
- 下一篇:一种增强液晶屏对比度的方法及系统