[发明专利]一种极低速率高质量语音编解码方法及装置在审
申请号: | 202210093723.5 | 申请日: | 2022-01-26 |
公开(公告)号: | CN114400012A | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 涂卫平;肖立;杨玉红;李景怡;郑友强 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L19/032 | 分类号: | G10L19/032;G10L19/04;G10L25/18;G10L25/30 |
代理公司: | 武汉智权专利代理事务所(特殊普通合伙) 42225 | 代理人: | 彭程程 |
地址: | 430072*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 速率 质量 语音 解码 方法 装置 | ||
1.一种极低速率高质量语音编解码方法,其特征在于,包括步骤:
S1.将待传输干净语音输入编码器;
S2.编码器提取线性预测系数输入量化器量化后,打包为比特流进行传输;
S3.接收所述比特流,并输入解量化器,得到解量化后的线性预测系数;
S4.将该线性预测系数输入转换模型,转换模型输出该线性预测系数对应的梅尔谱向量;
S5.将所述梅尔谱向量输入神经声码器得到重建解码语音。
2.如权利要求1所述的极低速率高质量语音编解码方法,其特征在于,所述转换模型包括第一自注意力变换网络、第二自注意力变换网络、基音周期预测器和能量预测器;转换模型的训练过程包括:
将训练集中原始的干净语音输入编码器,经过步骤S2和S3得到线性预测系数,再输入特征映射网络得到对应的高维潜在特征,然后输入位置编码模块得到位置向量,将位置向量加上高维潜在特征得到第一向量;
将第一向量输入第一自注意力变换网络得到对应的第一隐向量;
将第一隐向量分别输入基音周期预测器和能量预测器,得到预测的基音周期向量和能量向量,二者相加后得到第二隐向量,
将第二隐向量输入第二自注意力变换网络得到预测的梅尔谱向量。
3.如权利要求2所述的极低速率高质量语音编解码方法,其特征在于,所述位置编码模块的位置编码根据如下公式获得:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
其中,PE表示位置向量,pos表示一帧线性预测系数在语音中的位置,d表示PE的维度,2i表示偶数位置,2i+1表示奇数位置。
4.如权利要求2所述的极低速率高质量语音编解码方法,其特征在于,所述第一自注意力变换网络包括多头自注意模块、残差模块以及层归一化模块;
多头自注意模块通过缩放点击模型计算线性预测系数的高维潜在特征的注意力权重矩阵。
5.如权利要求2所述的极低速率高质量语音编解码方法,其特征在于,第一隐向量分别输入基音周期预测器和能量预测器中,依次经过一维卷积层、ReLU激活函数、层归一化以及Dropout层计算后,共同经过一层全连接层输出与第一隐向量维度相同的预测的基音周期向量和能量向量。
6.如权利要求2所述的极低速率高质量语音编解码方法,其特征在于,所述转换模型还包括后处理网络,用于微调所述预测的梅尔谱向量;
后处理网络包括五层一维卷积,首先将预测的梅尔谱向量经过第一层一维卷积输出为高维的特征,接着经过三层一维卷积捕获向量中的高维潜在特性,最后经过一维卷积输出为80维的最终梅尔谱向量;
每一层一维卷积后都要依次通过Tanh激活函数和Dropout层。
7.如权利要求6所述的极低速率高质量语音编解码方法,其特征在于,通过计算损失值Loss,通过Loss更新转换模型的网络参数,直至Loss在预设范围内保持稳定;其中y为训练集中原始语音的梅尔谱向量,p为训练集中原始语音的基音周期向量,e为训练集中原始语音的能量向量,为最终梅尔谱向量,为预测的梅尔谱向量,为预测的基音周期向量,为预测的能量向量。
8.如权利要求1-7任一所述的极低速率高质量语音编解码方法,其特征在于,所述线性预测系数包括线性预测滤波器系数、线谱对、以及线谱频率。
9.如权利要求1-7任一所述的极低速率高质量语音编解码方法,其特征在于,所述步骤S1还包括预处理步骤,用于将待传输干净语音匹配不同的编码器语音格式后,输入编码器,语音格式包括采样率、采样深度和语音类型。
10.一种极低速率高质量语音编解码装置,其特征在于,包括:
编码器,用于从待传输干净语音中提取线性预测系数;
量化器,用于将线性预测系数量化后,打包为比特流进行传输;
解量化器,用于将接收的比特流解量化,得到线性预测系数;
转换模型,用于将解量化得到的线性预测系数作为输入,输出该线性预测系数对应的梅尔谱向量;
神经声码器,用于根据所述梅尔谱向量得到重建解码语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210093723.5/1.html,转载请声明来源钻瓜专利网。