[发明专利]一种基于视听网络的多模态语音分离方法及装置有效

申请号：	202110208096.0	申请日：	2021-02-24
公开（公告）号：	CN112863538B	公开（公告）日：	2022-06-14
发明（设计）人：	何梦雨;程颖;冯瑞	申请（专利权）人：	复旦大学
主分类号：	G10L21/0272	分类号：	G10L21/0272;G10L21/0208;G10L25/57;G10L25/30;G06N3/04;G06N3/08
代理公司：	上海德昭知识产权代理有限公司 31204	代理人：	卢泓宇
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于视听网络多模态语音分离方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于视听网络的多模态语音分离方法，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括如下步骤：

步骤S1-1，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据；

步骤S1-2，构建多模态网络模型；

步骤S1-3，将所述第一预处理数据输入所述多模态网络模型进行训练，直到所述多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型；

步骤S1-4，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据；

步骤S1-5，搭建Wave-U-Net分割模型，并与所述音视频对齐判断模型构成视听模型；

步骤S1-6，将所述第二预处理数据输入所述视听模型进行训练，直到所述视听模型收敛从而得到训练好的视听模型作为视音频分割模型；

步骤S1-7，将所述待分离音视频输入所述视音频分割模型得到所述画面中说话人的语音，

其中，所述步骤S1-4中所述第二预处理方法包括对所述第二音视频训练数据中的视频进行说话人个数标注并按照所述说话人个数进行分类从而得到多个子集作为所述第二预处理数据，

所述步骤S1-6中将所述第二预处理数据中的各个所述子集按照所述说话人个数由小到大的顺序逐步输入所述视听模型进行训练，

所述步骤S1-5中，所述音视频对齐判断模型包括视觉子网以及音频子网，

当所述第二预处理数据输入所述音视频对齐判断模型时，所述视觉子网中的3D卷积层对所述第二预处理数据中的视频进行特征提取得到视频特征，所述音频子网中的1D卷积层对所述第二预处理数据中的音频进行特征提取得到音频特征，

当所述视频特征的时间采样率与所述音频特征的时间采样率相同时，将所述视频特征的激活通道与所述音频特征的激活通道连接起来从而得到融合后视音频特征，然后利用3D卷积层对该融合后视音频特征进行进一步地特征提取，并通过全局平均池化层得到多模态特征，

所述Wave-U-Net分割模型对输入所述视听模型的第二预处理数据中的音频进行下采样，与所述音视频对齐判断模型中的所述音频特征连接融合得到底层特征，再通过上采样得到上采样特征，将所述底层特征与所述上采样特征进行拼接融合从而分离得到目标说话人的音频以及背景噪声的音频。

2.根据权利要求1所述的基于视听网络的多模态语音分离方法，其特征在于：

其中，所述步骤S1-1中所述第一预处理方法包括如下步骤：

步骤S2-1，对所述第一音视频训练数据中的视频进行采样切片得到多个采样视频；

步骤S2-2，对所述第一音视频训练数据中的音频进行音轨随机移动得到多个采样音频；

步骤S2-3，将所有所述采样视频以及所有所述采样音频作为所述第一预处理数据。

3.根据权利要求1所述的基于视听网络的多模态语音分离方法，其特征在于：

其中，所述Wave-U-Net分割模型是基于U-Net网络改进得到的一维时间域音频分割模型。

4.根据权利要求1所述的基于视听网络的多模态语音分离方法，其特征在于：

其中，所述第二预处理方法还包括对所述第二音视频训练数据中的视频进行采样切片得到多个切片视频，对所述第二音视频训练数据中的视频进行分段得到多个分段音频，并将每个所述分段音频的波形的振幅的平方平均值归一化成常数值，

将所述切片视频对应的音频作为画面中的说话人音频，从所有所述分段音频中随机选取预定数量的分段音频作为画面外的说话人音频，与所述切片视频以及该切片视频对应的所述音频混合从而得到混合音视频，

将所有所述切片视频进行混合后得到的所有混合音视频作为所述第二预处理数据。

5.一种基于视听网络的多模态语音分离装置，用于从待分离音视频中分离出画面中说话人的语音，其特征在于，包括：

第一预处理模块，利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据；

多模态模型构建模块，构建多模态网络模型；

多模态模型训练模块，将所述第一预处理数据输入所述多模态网络模型进行训练，直到所述多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型；

第二预处理模块，利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据；

视听模型构建模块，搭建Wave-U-Net分割模型，并与所述音视频对齐判断模型构成视听模型；

视听模型训练模块，将所述第二预处理数据输入所述视听模型进行训练，直到所述视听模型收敛从而得到训练好的视听模型作为视音频分割模型；以及

音频分离模块，将所述待分离音视频输入所述视音频分割模型得到所述画面中说话人的语音，

其中，所述第二预处理方法包括对所述第二音视频训练数据中的视频进行说话人个数标注并按照所述说话人个数进行分类从而得到多个子集作为所述第二预处理数据，

所述视听模型训练模块中将所述第二预处理数据中的各个所述子集按照所述说话人个数由小到大的顺序逐步输入所述视听模型进行训练，

所述音视频对齐判断模型包括视觉子网以及音频子网，

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110208096.0/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于视听网络的多模态语音分离方法及装置有效

专利文献下载