[发明专利]一种极低速率高质量语音编解码方法及装置在审

申请号：	202210093723.5	申请日：	2022-01-26
公开（公告）号：	CN114400012A	公开（公告）日：	2022-04-26
发明（设计）人：	涂卫平;肖立;杨玉红;李景怡;郑友强	申请（专利权）人：	武汉大学
主分类号：	G10L19/032	分类号：	G10L19/032;G10L19/04;G10L25/18;G10L25/30
代理公司：	武汉智权专利代理事务所(特殊普通合伙) 42225	代理人：	彭程程
地址：	430072***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种速率质量语音解码方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种极低速率高质量语音编解码方法及装置，涉及音频技术领域，方法包括步骤：S1.将待传输干净语音输入编码器；S2.编码器提取线性预测系数输入量化器量化后，打包为比特流进行传输；S3.接收所述比特流，并输入解量化器，得到解量化后的线性预测系数；S4.将该线性预测系数输入转换模型，转换模型输出该线性预测系数对应的梅尔谱向量；S5.将所述梅尔谱向量输入神经声码器得到重建解码语音。本发明去除参数的信息冗余，以降低编码比特率，同时提升解码语音质量，满足极低传输带宽环境下对高质量语音通信的需求。

技术领域

本发明涉及音频技术领域，具体来讲涉及一种极低速率高质量语音编解码方法及装置。

背景技术

在极低速率语音编码领域中，传统基于语音信号线性预测模型的编码方法在4kb/s到16kb/s的比特率范围内取得了很大的成功，但是当比特率低至2.4kb/s甚至更低时，用于参数量化的比特数急剧减少，语音数字生成模型中各参数的高量化误差导致解码语音普遍存在自然度和相似度失真。例如，主观察觉到解码语音中有类似机器人说话的特性。近年来，基于深度学习的神经声码器在低速率语音编码领域取得了极大的成功。

目前将神经声码器与传统低速率语音编码相结合，通过将传统编码器提取的所有参数用于神经声码器的输入，获得高质量的合成语音，该方法极大地提升了传统低速率语音编码的解码语音质量。其缺点是该编解码系统是依据语音信号的线性预测模型来提取参数的，对于神经声码器来说，这些参数中存在信息冗余。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种极低速率高质量语音编解码方法及装置，去除参数的信息冗余，以降低编码比特率，同时提升解码语音质量，满足极低传输带宽环境下对高质量语音通信的需求。

为达到以上目的，一方面，采取一种极低速率高质量语音编解码方法，包括步骤：

S1.将待传输干净语音输入编码器；

S2.编码器提取线性预测系数输入量化器量化后，打包为比特流进行传输；

S3.接收所述比特流，并输入解量化器，得到解量化后的线性预测系数；

S4.将该线性预测系数输入转换模型，转换模型输出该线性预测系数对应的梅尔谱向量；

S5.将所述梅尔谱向量输入神经声码器得到重建解码语音。

优选的，所述转换模型包括第一自注意力变换网络、第二自注意力变换网络、基音周期预测器和能量预测器；转换模型的训练过程包括：

将训练集中原始的干净语音输入编码器，经过步骤S2和S3得到线性预测系数，再输入特征映射网络得到对应的高维潜在特征，然后输入位置编码模块得到位置向量，将位置向量加上高维潜在特征得到第一向量；

将第一向量输入第一自注意力变换网络得到对应的第一隐向量；