[发明专利]语音分离方法及装置、存储介质、电子装置有效
申请号: | 202110902416.2 | 申请日: | 2021-08-06 |
公开(公告)号: | CN113593587B | 公开(公告)日: | 2022-07-29 |
发明(设计)人: | 司马华鹏;王满洪;汤毅平 | 申请(专利权)人: | 宿迁硅基智能科技有限公司 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L21/0272;G10L21/055;H04N19/136;H04N19/172;H04N19/30 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 阚梦诗 |
地址: | 223808 江苏省宿*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 分离 方法 装置 存储 介质 电子 | ||
1.一种语音分离方法,其特征在于,包括:
获取音频数据和与所述音频数据同步采集的至少一组视频数据,其中,所述音频数据中包含至少一个目标角色的混合语音数据;
将所述音频数据按照时域进行切分,同时将所述视频数据转换为图像序列后提取图像特征向量;
将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息;
根据所述混合编码信息输出至少一个目标角色的编码权重;
根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据;
其中,所述根据至少一个所述目标角色的所述编码权重和所述音频数据输出至少一个所述目标角色的独立语音数据,包括:
将至少一个所述目标角色的所述编码权重和切分前的所述音频数据点乘,得到点乘后的数据;
将所述点乘后的数据输入语音分离网络模型,其中,所述语音分离神经网络模型是使用第二样本数据对基函数神经网络模型进行训练得到的模型,所述第二样本数据包括:多个角色的混合语音数据、每个所述角色对应的权重以及每个所述角色对应的独立语音数据。
2.根据权利要求1所述的方法,其特征在于,所述将所述音频数据按照时域进行切分,包括:
将所述音频数据按照预设时间段切分为多帧音频数据,其中,所述预设时间段的长度小于或等于预设阈值。
3.根据权利要求1所述的方法,其特征在于,所述将所述视频数据转换为图像序列后提取图像特征向量,包括:
将所述视频数据转换为图像序列;
使用n帧长度的滑动窗口提取所述图像特征向量,其中,n为大于1的整数。
4.根据权利要求3所述的方法,其特征在于,所述使用n帧长度的滑动窗口提取所述图像特征向量,包括:
以当前帧图像为基准,向左滑动n-1帧图像后,提取所述图像特征向量;
在所述当前帧图像的左侧图像不足n-1帧的情况下,复制当前滑动窗口内的第一帧图像作为填充;
在第一滑动窗口内的n帧图像中的至少一帧图像不包含人脸信息的情况下,丢弃所述第一滑动窗口内的n帧图像。
5.根据权利要求1所述的方法,其特征在于,所述将切分后的所述音频数据和所述图像特征向量分别进行编码后按照时间信息进行融合,得到混合编码信息,包括:
将切分后的所述音频数据输入音频编码器,经过卷积处理后得到音频编码信息;
将所述图像特征向量输入视频编码器,经过卷积处理后得到视频编码信息;
将处于同一时间段的所述音频编码信息和所述视频编码信息进行融合,得到所述混合编码信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述混合编码信息输出至少一个目标角色的编码权重,包括:
将所述混合编码信息输入分离网络模型,其中,所述分离网络模型是使用第一样本数据对时间循环神经网络模型进行训练后得到的模型,所述第一样本数据包括多个角色的混合语音数据和每个所述角色对应的权重标签;
通过所述分离网络模型输出至少一个所述目标角色的所述编码权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宿迁硅基智能科技有限公司,未经宿迁硅基智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110902416.2/1.html,转载请声明来源钻瓜专利网。