[发明专利]一种基于语音重建的网络音频高效传输方法在审
申请号: | 202211085196.X | 申请日: | 2022-09-06 |
公开(公告)号: | CN115966212A | 公开(公告)日: | 2023-04-14 |
发明(设计)人: | 李庆宇 | 申请(专利权)人: | 深圳市声菲特科技技术有限公司 |
主分类号: | G10L19/26 | 分类号: | G10L19/26;G10L19/02;G10L21/0272;G10L25/24;G10L25/45 |
代理公司: | 北京中普鸿儒知识产权代理有限公司 11822 | 代理人: | 林桐苒 |
地址: | 518000 广东省深圳市宝安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语音 重建 网络 音频 高效 传输 方法 | ||
本发明公开了一种基于语音重建的网络音频高效传输方法,包括以下步骤:步骤一,语音预处理;步骤二,信号处理;步骤三,fbank处理;步骤四,离散余弦变换;步骤五,动态特征抽取;步骤六,语音重建;本发明相较于现有的网络音频传输方法,在发送语音时采用MFCC技术提取语音特征,在接受语音时采用wavenet重建语音,从而获得高压缩比的语音信号,获取实时的传输效率,降低了网络带宽要求,增加无线传输距离,最重要的是在语音发送端对语音进行MFCC特征提取,有效的去除了相位信息,减少了数据传输量,达到了约10倍的压缩效率,语音接收后,使用wavenet对语音进行重组,获取了PESQ不低于3的语音质量,极大地提升了语音传输的效率和质量。
技术领域
本发明涉及计算机技术领域,具体为一种基于语音重建的网络音频高效传输方法。
背景技术
在网络音频传输过程中,为了保持传输效率,会采用一定的网络音频采样率甚至基于语音智能识别,将人声识别为文字再传输,但两种方法,前者会因采样率和压缩比的限制导致传输效率和质量都受影响,比如在产生丢包时,接收端会对丢包数据做插值恢复或重传导致失真或者增加音频传输系统的延迟;后者会因为基于文字信号转化成的语音数据产生音色音调的失真,而且只能针对人的说话场景,大大降低了网络音频传输的质量。
发明内容
本发明的目的在于提供一种基于语音重建的网络音频高效传输方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于语音重建的网络音频高效传输方法,包括以下步骤:步骤一,语音预处理;步骤二,信号处理;步骤三,fbank处理;步骤四,离散余弦变换;步骤五,动态特征抽取;步骤六,语音重建;
其中在上述步骤一中,当在语音发送端收到语音信息之后,首先对语音信息进行预处理;
其中在上述步骤二中,当步骤一中的信息预处理完成后,进行快速傅里叶变换计算,将长度为N的信号分解成两个长度为frac{N}{2}信号进行处理;
其中在上述步骤三中,当步骤二中的信息处理完成后,进行fbank处理,即Mel滤波器组,将能量谱通过一组Mel尺度的三角形滤波器组,采用25个滤波器的滤波器组,经过梅尔滤波器组后得到Fbank特征;
其中在上述步骤四中,当步骤三中的Fbank处理完成后,做离散余弦变换DCT将基音信息与声道信息进行分离,得到12维的MFCC倒谱域特征,该特征可反映了语音参数的静态特性;
其中在上述步骤五中,当步骤四中的离散余弦处理完成后,进行语音的动态特征抽取,用MFCC倒谱域特征的差分谱来描述,最终得到39维MFCC参数加上一帧的音量,最终得39维MFCC特征
其中在上述步骤六中,步骤五中的语音动态特征提取完成后,语音信息从发送端到传递到接收端,此时传输到语音接收端后,语音的采样率高,时域上对感知范围要求大,从而采用特殊模型和函数进行处理,此处使用升采样,最终可获取重建后的语音。
优选的,所述步骤一中,预处理包括预加重、分帧和加窗。
优选的,所述步骤二中,快速傅里叶变换的计算方法为时间抽取算法或者频率抽取算法。
优选的,所述步骤四中,离散余弦变换的公式为:
其中0≤p≤M-1,0≤q≤N-1;
其中Bpq为矩阵A的DCT系数。
优选的,所述步骤五中,39维MFCC参数为13MFCC系数加13、一阶差分参数加13和二阶差分参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市声菲特科技技术有限公司,未经深圳市声菲特科技技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211085196.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种温度动态均匀的热风循环烘箱
- 下一篇:一种家庭智慧燃气系统