[发明专利]一种极低速率高质量语音编解码方法及装置在审
申请号: | 202210093723.5 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114400012A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 涂卫平;肖立;杨玉红;李景怡;郑友强 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L19/032 | 分类号: | G10L19/032;G10L19/04;G10L25/18;G10L25/30 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 彭程程 |
地址: | 430072*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 速率 质量 语音 解码 方法 装置 | ||
一种极低速率高质量语音编解码方法及装置,涉及音频技术领域,方法包括步骤:S1.将待传输干净语音输入编码器;S2.编码器提取线性预测系数输入量化器量化后,打包为比特流进行传输;S3.接收所述比特流,并输入解量化器,得到解量化后的线性预测系数;S4.将该线性预测系数输入转换模型,转换模型输出该线性预测系数对应的梅尔谱向量;S5.将所述梅尔谱向量输入神经声码器得到重建解码语音。本发明去除参数的信息冗余,以降低编码比特率,同时提升解码语音质量,满足极低传输带宽环境下对高质量语音通信的需求。
技术领域
本发明涉及音频技术领域,具体来讲涉及一种极低速率高质量语音编解码方法及装置。
背景技术
在极低速率语音编码领域中,传统基于语音信号线性预测模型的编码方法在4kb/s到16kb/s的比特率范围内取得了很大的成功,但是当比特率低至2.4kb/s甚至更低时,用于参数量化的比特数急剧减少,语音数字生成模型中各参数的高量化误差导致解码语音普遍存在自然度和相似度失真。例如,主观察觉到解码语音中有类似机器人说话的特性。近年来,基于深度学习的神经声码器在低速率语音编码领域取得了极大的成功。
目前将神经声码器与传统低速率语音编码相结合,通过将传统编码器提取的所有参数用于神经声码器的输入,获得高质量的合成语音,该方法极大地提升了传统低速率语音编码的解码语音质量。其缺点是该编解码系统是依据语音信号的线性预测模型来提取参数的,对于神经声码器来说,这些参数中存在信息冗余。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种极低速率高质量语音编解码方法及装置,去除参数的信息冗余,以降低编码比特率,同时提升解码语音质量,满足极低传输带宽环境下对高质量语音通信的需求。
为达到以上目的,一方面,采取一种极低速率高质量语音编解码方法,包括步骤:
S1.将待传输干净语音输入编码器;
S2.编码器提取线性预测系数输入量化器量化后,打包为比特流进行传输;
S3.接收所述比特流,并输入解量化器,得到解量化后的线性预测系数;
S4.将该线性预测系数输入转换模型,转换模型输出该线性预测系数对应的梅尔谱向量;
S5.将所述梅尔谱向量输入神经声码器得到重建解码语音。
优选的,所述转换模型包括第一自注意力变换网络、第二自注意力变换网络、基音周期预测器和能量预测器;转换模型的训练过程包括:
将训练集中原始的干净语音输入编码器,经过步骤S2和S3得到线性预测系数,再输入特征映射网络得到对应的高维潜在特征,然后输入位置编码模块得到位置向量,将位置向量加上高维潜在特征得到第一向量;
将第一向量输入第一自注意力变换网络得到对应的第一隐向量;
将第一隐向量分别输入基音周期预测器和能量预测器,得到预测的基音周期向量和能量向量,二者相加后得到第二隐向量,
将第二隐向量输入第二自注意力变换网络得到预测的梅尔谱向量。
优选的,所述位置编码模块的位置编码根据如下公式获得:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,PE表示位置向量,pos表示一帧线性预测系数在语音中的位置,d表示PE的维度,2i表示偶数位置,2i+1表示奇数位置。
优选的,所述第一自注意力变换网络包括多头自注意模块、残差模块以及层归一化模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210093723.5/2.html,转载请声明来源钻瓜专利网。