[发明专利]音频处理方法及装置、终端及存储介质有效
申请号: | 202110309769.1 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113113044B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 徐娜;王林章;贾永涛 | 申请(专利权)人: | 北京小米松果电子有限公司;昆山杜克大学 |
主分类号: | G10L25/03 | 分类号: | G10L25/03;G10L25/51;G10L21/0272 |
代理公司: | 北京善任知识产权代理有限公司 11650 | 代理人: | 张振伟 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 终端 存储 介质 | ||
1.一种音频处理方法,其特征在于,包括:
确定目标对象的第一声纹特征;
对混合音频进行预分离处理,获得多路语音信号;
根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频;
其中,所述根据所述第一声纹特征和所述多路语音信号,确定所述混合音频中与所述目标对象匹配的目标音频,包括:
确定所述多路语音信号中各语音信号的第二声纹特征;
将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;
将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。
2.根据权利要求1所述的方法,其特征在于,所述将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频,包括:
将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;
根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。
3.根据权利要求2所述的方法,其特征在于,所述子模块包括:多层长短期记忆网络LSTM和全连接层。
4.根据权利要求1所述的方法,其特征在于,所述确定目标对象的第一声纹特征,包括:
获取所述目标对象的音频信号;
根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。
5.根据权利要求4所述的方法,其特征在于,所述根据所述音频信号的频谱,提取所述目标对象的第一声纹特征,包括:
将所述音频信号的频谱输入预定的声纹提取网络模型,获取所述目标对象的第一声纹特征。
6.根据权利要求5所述的方法,其特征在于,所述声纹提取网络模型包括:
残差网络RESNET;
至少一层池化层,与所述RESNET连接;
全连接层,与所述池化层连接。
7.根据权利要求1所述的方法,其特征在于,所述对混合音频进行预分离处理,获得多路语音信号,包括:
对所述混合音频采用独立向量分析IVA方式进行预分离处理,获得所述多路语音信号。
8.根据权利要求1至7中任一所述的方法,其特征在于,所述混合音频是语音通话过程中采集到的;
所述方法还包括:
对所述语音分离后的所述目标音频进行降噪处理,输出增强后的所述目标音频。
9.一种音频处理装置,其特征在于,包括:
确定模块,配置为确定目标对象的第一声纹特征;
预分离模块,配置为对混合音频进行预分离处理,获得多路语音信号;
提取模块,配置为确定所述多路语音信号中各语音信号的第二声纹特征;将各所述语音信号的第二声纹特征以及所述第一声纹特征进行拼接,获得第三声纹特征;将所述第三声纹特征输入预定的语音分离网络模型,确定所述混合音频中与所述目标对象匹配的目标音频。
10.根据权利要求9所述的装置,其特征在于,
所述提取模块,还配置为将所述第三声纹特征输入所述预定的语音分离网络模型的各子模块,得到各子模块的输出结果;根据所述各子模块的输出结果串联的总输出结果,确定所述混合音频中与所述目标对象匹配的目标音频。
11.根据权利要求10所述的装置,其特征在于,所述子模块包括:多层长短期记忆网络LSTM和全连接层。
12.根据权利要求9所述的装置,其特征在于,
所述确定模块,还配置为获取所述目标对象的音频信号;根据所述音频信号的频谱,提取所述目标对象的第一声纹特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米松果电子有限公司;昆山杜克大学,未经北京小米松果电子有限公司;昆山杜克大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110309769.1/1.html,转载请声明来源钻瓜专利网。