[发明专利]一种音乐信号的人声消除方法、设备及介质在审
申请号: | 202110649872.0 | 申请日: | 2021-06-10 |
公开(公告)号: | CN113393857A | 公开(公告)日: | 2021-09-14 |
发明(设计)人: | 闫震海 | 申请(专利权)人: | 腾讯音乐娱乐科技(深圳)有限公司 |
主分类号: | G10L21/0232 | 分类号: | G10L21/0232;G10L21/0272 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 张金香 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 音乐 信号 人声 消除 方法 设备 介质 | ||
本申请公开了一种音乐信号的人声消除方法、设备及介质,包括:将音乐信号输入至声伴分离模型,得到所述声伴分离模型输出的人声信号;基于所述音乐信号以及所述人声信号确定线性系统传递函数;将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号,并利用所述线性系统传递函数对所述初始人声消除信号进行人声压制,得到最终的人声消除信号。这样,先利用声伴分离模型对音乐信号的人声信号进行初步消除,之后利用线性系统传统函数对利用声伴分离模型确定的初始人声消除信号进行进一步的人声压制,能够提升对音乐信号中人声信号的消除程度,从而得到更加干净的人声消除信号。
技术领域
本申请涉及音频处理技术领域,特别涉及一种音乐信号的人声消除方法、设备及介质。
背景技术
当前,深度学习被广泛应用于音乐信号的人声和伴奏的分离,常见的输出伴奏的声伴分离模型,虽然可以在一定程度上消除音乐信号中的人声信号成分,但其相关系数需要提前训练,且是固定不变的,这种处理方式,是从静态的角度分析人声信号在一段音乐信号中的分布情况,面对动态起伏的人声信号,存在消除的不够彻底,仍有部分残留的人声信号成分的缺点,尤其是在人声信号从无到有出现时,往往会残留人耳可分辨的人声信号。综上,在实现本发明的过程中,发明人至少发现,现有技术中存在音乐信号中人声信号消除不够彻底,存在部分残留的问题。
发明内容
有鉴于此,本申请的目的在于提供一种音乐信号的人声消除方法、设备及介质,能够提升对音乐信号中人声信号的消除程度,从而得到更加干净的人声消除信号。其具体方案如下:
第一方面,本申请公开了一种音乐信号的人声消除方法,包括:
将音乐信号输入至声伴分离模型,得到所述声伴分离模型输出的人声信号;
基于所述音乐信号以及所述人声信号确定线性系统传递函数;
将所述音乐信号以及所述人声信号之间的差信号作为初始人声消除信号;
利用所述线性系统传递函数对所述初始人声消除信号进行人声压制,得到最终的人声消除信号。
可选的,所述利用所述线性系统传递函数对所述初始人声消除信号进行人声压制,得到最终的人声消除信号,包括:
确定所述初始人声消除信号的频域信号,得到目标频域信号;
利用所述线性系统传递函数以及所述目标频域信号确定人声压制频域信号;
对所述人声压制频域信号进行傅里叶逆变换,得到最终的人声消除信号。
可选的,所述确定所述初始人声消除信号的频域信号,得到目标频域信号,包括:
确定所述音乐信号的第一频域信号,以及所述人声信号的第二频域信号;
将所述第一频域信号和所述第二频域信号的差信号确定为所述初始人声消除信号的频域信号,得到目标频域信号。
可选的,所述基于所述音乐信号以及所述人声信号确定线性系统传递函数,包括:
对所述音乐信号以及所述人声信号进行分帧处理,得到所述音乐信号以及所述人声信号的每一帧数据;
基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性系统传递函数。
可选的,所述基于所述音乐信号以及所述人声信号的每一帧数据确定每一帧数据对应的线性系统传递函数,包括:
确定所述音乐信号的每一帧数据对应的第一自功率谱,以及所述人声信号的每一帧数据对应的第二自功率谱;
基于所述音乐信号以及所述人声信号的每一帧数据确定所述音乐信号与所述初始人声消除信号的每一帧数据对应的互功率谱;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯音乐娱乐科技(深圳)有限公司,未经腾讯音乐娱乐科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110649872.0/2.html,转载请声明来源钻瓜专利网。