[发明专利]音频压缩方法、音频解压缩方法及装置有效
申请号: | 202110266469.X | 申请日: | 2021-03-11 |
公开(公告)号: | CN113035211B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 乔宏利;王洪斌;蒋宁;吴海英 | 申请(专利权)人: | 马上消费金融股份有限公司 |
主分类号: | G10L19/008 | 分类号: | G10L19/008;G10L19/16 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 黄灿;罗婷 |
地址: | 404100 重庆市渝北区*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 压缩 方法 解压缩 装置 | ||
本发明提供一种音频压缩方法、音频解压缩方法及装置,该方法包括:将预设编码格式的音频数据进行分片,得到N个音频片段;分别将每个所述音频片段输入预先训练的音频压缩网络,得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量,其中,所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络;按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接,得到音频压缩数据。通过本发明提供的音频压缩方法,可以提高音频压缩比的稳定性,并可以实现音频片段的流式压缩,便于压缩音频的流式传输。
技术领域
本发明涉及音频处理技术领域,尤其涉及一种音频压缩方法、音频解压缩方法及装置。
背景技术
目前,音频压缩通常是基于结构化编码的方式实现,例如,mp3(Moving PictureExperts Group Audio Layer III,动态影像专家压缩标准音频层面3),然而,这种音频压缩方式的压缩比与待压缩音频数据的相关性较大,不同内容特点的音频数据,其压缩比差异较大,例如,对于内容变化较小的音频数据,其压缩比较大,而对于内容变化较为丰富的音频数据,其压缩比较小。
可见,现有的基于结构化编码的音频压缩方式存在压缩比稳定性较差的问题。
发明内容
本发明实施例提供一种音频压缩方法、音频解压缩方法及装置,以解决现有的基于结构化编码的音频压缩方式的压缩比稳定性较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种音频压缩方法。该方法包括:
将预设编码格式的音频数据进行分片,得到N个音频片段,N为大于1的整数;
分别将每个所述音频片段输入预先训练的音频压缩网络,得到每个所述音频片段对应的音频压缩特征矩阵和音频时序特征向量,其中,所述音频压缩网络包括带残差的卷积神经网络和深层循环神经网络,所述带残差的卷积神经网络对输入的所述音频片段压缩处理后输出所述音频压缩特征矩阵,所述深层循环神经网络对输入的所述音频片段处理后得到所述音频时序特征向量;
按序将每个所述音频片段对应的所述音频压缩特征矩阵和所述音频时序特征向量拼接,得到音频压缩数据。
第二方面,本发明实施例提供了一种音频解压缩方法。该方法包括:
获取目标音频压缩数据,其中,所述音频压缩数据为根据上述的音频压缩方法压缩得到的音频压缩数据;
按照第一预设长度将所述目标音频压缩数据进行分片,得到S个音频压缩片段,其中,S为大于1的整数;
分别获取所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量;
分别将所述S个音频压缩片段中每个音频压缩片段的音频压缩特征矩阵和音频时序特征向量输入预先训练的音频解压缩网络,得到预测的S个音频片段,其中,所述音频解压缩网络包括带残差的膨胀卷积网络、转置层、concat网络层和全连接网络层,所述带残差的膨胀卷积网络用于对输入的音频压缩特征矩阵进行膨胀卷积,所述转置层用于对所述带残差的膨胀卷积网络输出的特征矩阵进行转置并输出转置矩阵,所述concat网络层用于将输入的音频时序特征向量和所述转置层输出的转置矩阵进行拼接,所述全连接网络层用于基于所述concat网络层输出的特征矩阵输出预测的音频片段;
将所述S个音频片段按序拼接,得到解压后的音频数据。
第三方面,本发明实施例提供了一种模型训练方法。该方法包括:
获取P个音频样本,其中,P为大于1的整数,所述P个音频样本中的每个音频样本均为预设编码格式的音频数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于马上消费金融股份有限公司,未经马上消费金融股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110266469.X/2.html,转载请声明来源钻瓜专利网。