[发明专利]基于深度学习的语音音质增强方法、装置和系统在审
| 申请号: | 202111069826.X | 申请日: | 2018-06-05 |
| 公开(公告)号: | CN113870872A | 公开(公告)日: | 2021-12-31 |
| 发明(设计)人: | 秦宇;姚青山;喻浩文;卢峰 | 申请(专利权)人: | 安克创新科技股份有限公司 |
| 主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L21/0208;G10L21/034;G10L25/30 |
| 代理公司: | 北京磐华捷成知识产权代理有限公司 11851 | 代理人: | 卜璐璐 |
| 地址: | 410205 湖南省长沙市高新开发区尖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 深度 学习 语音 音质 增强 方法 装置 系统 | ||
本发明提供一种基于深度学习的语音音质增强方法、装置和系统。所述方法包括:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。根据本发明实施例的基于深度学习的语音音质增强方法、装置和系统基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。
本申请是2018年6月5日提出的第201810583123.0号中国专利申请的分案申请。
技术领域
本发明涉及音质优化技术领域,更具体地涉及一种基于深度学习的语音音质增强方法、装置和系统。
背景技术
近年来,语音无线通信飞速发展,目前广泛应用于各种民用和工业领域。无线通信受带宽限制,要求对语音编码压缩,尽可能地降低语音的采样频率和码率。语音编码尽管降低了语音质量,但也极大节省了资源。早期的数字语音通信编码,如全球移动通信系统-半速率(GMS-HR),码率在6.5kbps左右,采用8kHz的采样频率,实际带宽小于4k,损失了很多高频信息,使得人声缺乏辨识度,只能满足基本的语音通信需求。
随着人们对音质的需求越来越高,低码率低质量语音音质已不能满足需求。随着网络带宽提升,更高码率质量的语音通信也成为了可能。例如,增强语音服务(EVS)编码技术可能达到48k采样频率和128kbps的码率。但是这并不意味着所有用户都能享受到高清语音通信的体验,例如这样的场景:打电话用户的运营商支持4G网络,而接电话用户的运营商只支持3G网络,那么双方可能只能选择自适应多速率编码-窄带(amr-nb)编码方式进行语音编码,而不是例如16kHz采样频率的自适应多速率编码-宽带(amr-wb)编码方式。由于存在这些因为硬件条件而不得不采用低质量码率语音的场景存在,并不是所有人都能享受到高清语音通信的好处。
另一方面,在保持音质情况下尽可能降低编码码率,也是语音通信的主要研究方向。因此,在有限的存储和带宽资源限制下,通过数字信号处理方法,对低质量码率语音进行重构,使其音质接近高质量语音是一个有价值的研究方向。然而,目前用软件方法进行低质量码率语音重构尚无相应可行方案。对于低质量码率语音的重构,通常是采取填充或插值数据的方法,但这种方法过于粗糙,基本无法还原高质量语音的音质。
发明内容
为了解决上述问题中的至少一个而提出了本发明。本发明提出了一种关于基于深度学习的语音音质增强的方案,其基于深度学习方法对低质量语音音质进行增强,使低质量语音音质通过深层神经网络重构达到高质量语音的音质,从而能够实现传统方法无法达到的音质提升效果。下面简要描述本发明提出的关于基于深度学习的语音音质增强的方案,更多细节将在后续结合附图在具体实施方式中加以描述。
根据本发明一方面,提供了一种基于深度学习的语音音质增强方法,所述方法包括:获取待处理语音数据,并对所述待处理语音数据进行特征提取以得到所述待处理语音数据的特征;以及基于所述待处理语音数据的特征,利用训练好的语音重构神经网络将所述待处理语音数据重构为输出语音数据,其中所述输出语音数据的语音质量高于所述待处理语音数据的语音质量。
在本发明的一个实施例中,所述语音重构神经网络的训练包括:获取第一语音样本和第二语音样本,其中所述第二语音样本的语音质量低于所述第一语音样本的语音质量,且所述第二语音样本由所述第一语音样本通过转码而得到;对所述第一语音样本和所述第二语音样本分别进行特征提取以分别得到所述第一语音样本的特征和所述第二语音样本的特征;以及将得到的所述第二语音样本的特征作为所述语音重构神经网络的输入层的输入,并将得到的所述第一语音样本的特征作为所述语音重构神经网络的输出层的目标,以训练所述语音重构神经网络。
在本发明的一个实施例中,所述第一语音样本具有第一码率,所述第二语音样本具有第二码率,所述第一码率高于或等于所述第二码率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安克创新科技股份有限公司,未经安克创新科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111069826.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高分子面料染色装置及染色方法
- 下一篇:一种码头抑尘装置





