[发明专利]语音分离方法及装置、存储介质、电子装置有效
申请号: | 202110902416.2 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113593587B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 司马华鹏;王满洪;汤毅平 | 申请(专利权)人: | 宿迁硅基智能科技有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L21/0272;G10L21/055;H04N19/136;H04N19/172;H04N19/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 阚梦诗 |
地址: | 223808 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 方法 装置 存储 介质 电子 | ||
本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置,所述方法包括:获取音频数据和与音频数据同步采集的至少一组视频数据,其中,音频数据中包含至少一个目标角色的混合语音数据;将音频数据按照时域进行切分,同时将视频数据转换为图像序列后提取图像特征向量;将切分后的音频数据和图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息;根据混合编码信息输出至少一个目标角色的编码权重;根据至少一个目标角色编码权重和所述频数据输出至少一个目标角色的独立语音数据。
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种语音分离方法及装置、存储介质、电子装置。
背景技术
语音分离技术是将一段混合语音中各说话人对应的语音段分离开的技术。在智能会议、鸡尾酒会等实际语音识别场景,很多时候系统接收到的语音是多个人同时说话的结果,为了识别每个参与者的说话内容,必须先将各个说话人的语音分离开,然后再根据分离出的结果才能更好地识别出各话者的对应文本。
现有的基于音视频结合的多模态语音分离技术,同时利用说话人的语音和图像信息来分离混合后的音频。其基本思路是:将视频按一定的帧率切割为静态的人脸图像,然后将一定长度的语音与对应长度的图像一起输入到编码器中,再通过解码器获取各说话人的mask权重,进而得到各说话人的语音。目前相关技术中的多模态分离技术都是在频域上处理语音,因而需要先分帧,为了保证语音信号的短时平稳性,帧长需取10-30ms范围,通常取25ms,为了保证模型效果,一般要做前后帧拼接,通常为前后各4帧,因此数据切分单位通常需要大于100毫秒,特别是结合语音识别做联合训练时数据长度需要3秒以上,才能保证模型效果,很难满足在线场景中的实时分离要求。
针对相关技术中,基于音视频结合的多模态语音分离技术无法实现实时语音分离的技术问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种语音分离方法及装置、存储介质、电子装置,以至少解决相关技术中基于音视频结合的多模态语音分离技术无法实现实时语音分离的技术问题。
在本申请的一个实施例中,提出了一种语音分离方法,包括:获取音频数据和与所述音频数据同步采集的至少一组视频数据,其中,所述音频数据中包含至少一个目标角色的混合语音数据;将所述音频数据按照时域进行切分,同时将所述视频数据转换为图像序列后提取图像特征向量;将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息;根据所述混合编码信息输出至少一个目标角色的编码权重;根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据。
在本申请的一个实施例中,还提出了一种语音分离装置,包括获取模块,配置为获取音频数据和与所述音频数据同步采集的至少一组视频数据,其中,所述音频数据中包含至少一个目标角色的混合语音数据;预处理模块,配置为将所述音频数据按照时域进行切分,同时将所述视频数据转换为图像序列后提取图像特征向量;融合模块,配置为将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息;第一输出模块,配置为根据所述混合编码信息输出至少一个目标角色的编码权重;第二输出模块,配置为根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据。
在本申请的一个实施例中,还提出了一种计算机可读的存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在本申请的一个实施例中,还提出了一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110902416.2/2.html,转载请声明来源钻瓜专利网。