[发明专利]一种基于视听网络的多模态语音分离方法及装置有效

专利信息
申请号: 202110208096.0 申请日: 2021-02-24
公开(公告)号: CN112863538B 公开(公告)日: 2022-06-14
发明(设计)人: 何梦雨;程颖;冯瑞 申请(专利权)人: 复旦大学
主分类号: G10L21/0272 分类号: G10L21/0272;G10L21/0208;G10L25/57;G10L25/30;G06N3/04;G06N3/08
代理公司: 上海德昭知识产权代理有限公司 31204 代理人: 卢泓宇
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 视听 网络 多模态 语音 分离 方法 装置
【权利要求书】:

1.一种基于视听网络的多模态语音分离方法,用于从待分离音视频中分离出画面中说话人的语音,其特征在于,包括如下步骤:

步骤S1-1,利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据;

步骤S1-2,构建多模态网络模型;

步骤S1-3,将所述第一预处理数据输入所述多模态网络模型进行训练,直到所述多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型;

步骤S1-4,利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据;

步骤S1-5,搭建Wave-U-Net分割模型,并与所述音视频对齐判断模型构成视听模型;

步骤S1-6,将所述第二预处理数据输入所述视听模型进行训练,直到所述视听模型收敛从而得到训练好的视听模型作为视音频分割模型;

步骤S1-7,将所述待分离音视频输入所述视音频分割模型得到所述画面中说话人的语音,

其中,所述步骤S1-4中所述第二预处理方法包括对所述第二音视频训练数据中的视频进行说话人个数标注并按照所述说话人个数进行分类从而得到多个子集作为所述第二预处理数据,

所述步骤S1-6中将所述第二预处理数据中的各个所述子集按照所述说话人个数由小到大的顺序逐步输入所述视听模型进行训练,

所述步骤S1-5中,所述音视频对齐判断模型包括视觉子网以及音频子网,

当所述第二预处理数据输入所述音视频对齐判断模型时,所述视觉子网中的3D卷积层对所述第二预处理数据中的视频进行特征提取得到视频特征,所述音频子网中的1D卷积层对所述第二预处理数据中的音频进行特征提取得到音频特征,

当所述视频特征的时间采样率与所述音频特征的时间采样率相同时,将所述视频特征的激活通道与所述音频特征的激活通道连接起来从而得到融合后视音频特征,然后利用3D卷积层对该融合后视音频特征进行进一步地特征提取,并通过全局平均池化层得到多模态特征,

所述Wave-U-Net分割模型对输入所述视听模型的第二预处理数据中的音频进行下采样,与所述音视频对齐判断模型中的所述音频特征连接融合得到底层特征,再通过上采样得到上采样特征,将所述底层特征与所述上采样特征进行拼接融合从而分离得到目标说话人的音频以及背景噪声的音频。

2.根据权利要求1所述的基于视听网络的多模态语音分离方法,其特征在于:

其中,所述步骤S1-1中所述第一预处理方法包括如下步骤:

步骤S2-1,对所述第一音视频训练数据中的视频进行采样切片得到多个采样视频;

步骤S2-2,对所述第一音视频训练数据中的音频进行音轨随机移动得到多个采样音频;

步骤S2-3,将所有所述采样视频以及所有所述采样音频作为所述第一预处理数据。

3.根据权利要求1所述的基于视听网络的多模态语音分离方法,其特征在于:

其中,所述Wave-U-Net分割模型是基于U-Net网络改进得到的一维时间域音频分割模型。

4.根据权利要求1所述的基于视听网络的多模态语音分离方法,其特征在于:

其中,所述第二预处理方法还包括对所述第二音视频训练数据中的视频进行采样切片得到多个切片视频,对所述第二音视频训练数据中的视频进行分段得到多个分段音频,并将每个所述分段音频的波形的振幅的平方平均值归一化成常数值,

将所述切片视频对应的音频作为画面中的说话人音频,从所有所述分段音频中随机选取预定数量的分段音频作为画面外的说话人音频,与所述切片视频以及该切片视频对应的所述音频混合从而得到混合音视频,

将所有所述切片视频进行混合后得到的所有混合音视频作为所述第二预处理数据。

5.一种基于视听网络的多模态语音分离装置,用于从待分离音视频中分离出画面中说话人的语音,其特征在于,包括:

第一预处理模块,利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据;

多模态模型构建模块,构建多模态网络模型;

多模态模型训练模块,将所述第一预处理数据输入所述多模态网络模型进行训练,直到所述多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型;

第二预处理模块,利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据;

视听模型构建模块,搭建Wave-U-Net分割模型,并与所述音视频对齐判断模型构成视听模型;

视听模型训练模块,将所述第二预处理数据输入所述视听模型进行训练,直到所述视听模型收敛从而得到训练好的视听模型作为视音频分割模型;以及

音频分离模块,将所述待分离音视频输入所述视音频分割模型得到所述画面中说话人的语音,

其中,所述第二预处理方法包括对所述第二音视频训练数据中的视频进行说话人个数标注并按照所述说话人个数进行分类从而得到多个子集作为所述第二预处理数据,

所述视听模型训练模块中将所述第二预处理数据中的各个所述子集按照所述说话人个数由小到大的顺序逐步输入所述视听模型进行训练,

所述音视频对齐判断模型包括视觉子网以及音频子网,

当所述第二预处理数据输入所述音视频对齐判断模型时,所述视觉子网中的3D卷积层对所述第二预处理数据中的视频进行特征提取得到视频特征,所述音频子网中的1D卷积层对所述第二预处理数据中的音频进行特征提取得到音频特征,

当所述视频特征的时间采样率与所述音频特征的时间采样率相同时,将所述视频特征的激活通道与所述音频特征的激活通道连接起来从而得到融合后视音频特征,然后利用3D卷积层对该融合后视音频特征进行进一步地特征提取,并通过全局平均池化层得到多模态特征,

所述Wave-U-Net分割模型对输入所述视听模型的第二预处理数据中的音频进行下采样,与所述音视频对齐判断模型中的所述音频特征连接融合得到底层特征,再通过上采样得到上采样特征,将所述底层特征与所述上采样特征进行拼接融合从而分离得到目标说话人的音频以及背景噪声的音频。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110208096.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top