[发明专利]用于音频丢包修复的神经网络训练方法、装置和系统在审
申请号: | 202010200410.6 | 申请日: | 2020-03-20 |
公开(公告)号: | CN111883172A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 肖全之;闫玉凤;黄荣均;方桂萍 | 申请(专利权)人: | 珠海市杰理科技股份有限公司 |
主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/51;G10L25/48;G10L21/007 |
代理公司: | 深圳市君之泉知识产权代理有限公司 44366 | 代理人: | 程苗 |
地址: | 519085 广东省珠海市吉*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 音频 修复 神经网络 训练 方法 装置 系统 | ||
本发明公开了一种用于音频丢包修复的神经网络训练方法、装置和系统,其中,所述训练方法包括:获取待学习的语音信号样本数据;在每组N帧语音信号帧中剔除第一预设位置的语音信号帧得到第一输入样本;在每组N帧语音信号帧中剔除第二预设位置的语音信号帧得到第二输入样本;将第一输入样本和第二输入样本分别输入至第一修复模型和第二修复模型,以分别训练第一修复模型和第二修复模型。本发明实施例的方案训练了不同的修复模型,使得在语音数据修复过程中能够适应选择修复模型,对丢失语音信号帧的修复更有针对性,继而,提高修复准确率。
技术领域
本发明涉及音频数据处理领域,具体涉及一种用于音频丢包修复的神经网络训练方法、装置和系统。
背景技术
随着影音设备、移动通信的普及,蓝牙技术的发展,人们越来越多地采用无线收发数据的方式来进行影音数据的无线传输,例如蓝牙音箱、蓝牙耳机、蓝牙鼠标、蓝牙键盘、蓝牙遥控器等越多的蓝牙产品出现在人们的生活中。
其中蓝牙音箱、蓝牙耳机主要应用了蓝牙通话及蓝牙音乐播放等功能,而蓝牙在传输这些音频的时候是将音频数据以一个数据包接一个数据包的形式通过主机(手机、电脑等)传输给蓝牙播放设备播放。在传输过程中,由于是无线传输往往会受到其它无线信号的干扰、或者由于障碍物或距离的原因、导致传输过程数据包的丢失,如果不对这些数据进行修复,那么在播放端就会出现不连续或者是杂音。特别是蓝牙通话模式下,丢失信号会直接影响电话通话的体验感受,严重时甚至影响沟通。因此需要对蓝牙丢包数据进行修复。
针对蓝牙丢包数据的修复,常见的传统修复方式有:
1.静音处理,对丢失的数据用静音数据替换,避免其它刺耳的杂音。这种静音处理方式,方法简单但性能有限,只能避免杂音但丢失的信号是没有恢复的。
2.波形替换,通过语音信号的基音周期或其它相关算法计算相关信号,用相似信号替换。其原理是基于语音短时平稳,可以用相似波形替换,但是现实语音信号也是存在元音、辅音切换、以及语速、语调的不停变化的,所以用相似信号替换很难恢复这种变化信号。另外语音信号能量也是在不停变化的,要较好的恢复出来也需要更多的额外处理,当信号丢失比较严重的时候,由于相似信号的重复使用,也会导致机器声的产生。
为了实现对丢失的音频数据包进行修复,现有技术中,常利用高级算法进行预测、修复,例如,采用神经网络学习音频数据帧与帧之间的非线性模型,而后,根据非线性模型在频域上重构丢失的数据,以此来获得当前丢失数据的时域估计;这种构建非线性模型的方式,通常利用当前音频数据帧之前已接收的音频数据帧来学习模型,由此,预测得到当前丢失的数据,也就是在时域上根据前面的帧来预测后面的音频数据帧。这种方式虽然能够预测、估计丢失的数据,从而对丢失的数据进行修复,但是,当之前的音频数据帧也存在丢包现象时,会导致神经网络学习的非线性模型不够精确,从而导致基于该模型无法准确地预测丢失的音频数据帧。
因此,如何提供新的神经网络结构模型来修复丢失的音频数据包,提高修复准确率成为亟待解决的技术问题。
发明内容
基于上述现状,本发明的主要目的在于提供一种用于音频丢包修复的神经网络训练方法、装置和系统,以修复丢失的音频数据包,提高修复准确率。
为实现上述目的,本发明采用的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海市杰理科技股份有限公司,未经珠海市杰理科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010200410.6/2.html,转载请声明来源钻瓜专利网。