[发明专利]一种基于视听网络的多模态语音分离方法及装置有效
申请号: | 202110208096.0 | 申请日: | 2021-02-24 |
公开(公告)号: | CN112863538B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 何梦雨;程颖;冯瑞 | 申请(专利权)人: | 复旦大学 |
主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L21/0208;G10L25/57;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 卢泓宇 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视听 网络 多模态 语音 分离 方法 装置 | ||
本发明提供了一种基于视听网络的多模态语音分离方法及装置,用于从待分离音视频中分离出画面中说话人的语音,其特征在于,包括如下步骤:利用第一预处理方法对第一音视频训练数据处理得到第一预处理数据;构建多模态网络模型;将第一预处理数据输入多模态网络模型训练,得到音视频对齐判断模型;利用第二预处理方法对第二音视频训练数据处理得到第二预处理数据;搭建Wave‑U‑Net分割模型,并与音视频对齐判断模型构成视听模型;将第二预处理数据输入视听模型训练,得到视音频分割模型;将待分离音视频输入视音频分割模型得到画面中说话人的语音。其中,将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。
技术领域
本发明属于图像分析领域,具体涉及一种基于视听网络的多模态语音分离方法及装置。
背景技术
随着人工智能的高速发展以及计算机硬件性能的高速提升,传统的计算机视觉和听觉也取得了巨大的发展,而两者的结合即跨媒体领域也成为了研究的热点。语音分离作为经典的人工智能问题,在跨媒体领域也不断发展。语音分离有着广泛的商业应用场景,比如:语音识别系统、线上会议、智能家居等,该技术的发展不仅推动计算机视觉和计算机听觉这一交叉领域的发展,还使得人工智能在城市生活中得到更好地应用。
具体地,人类在鸡尾酒会这种嘈杂环境中能将听力注意力集中到某单个声源上,同时降低其他噪声的影响。而在语音识别领域,当说话人数为两人或多人时,语音识别的准确率就会大幅降低。这就是鸡尾酒问题,又叫盲源分离,它是一个经典的音频学习任务。在鸡尾酒问题中,根据麦克风的数量,又可分为单通道系统和多通道系统。而处理鸡尾酒问题时,现在主要有纯音频的方法和音频视频结合的方法。
纯音频的方法包括深度聚类的方法,即通过使用经过训练的音频嵌入来聚类和分离不同的声源。纯音频的方法还包括使用深度学习网络来分离声源。
音频视频结合的跨模态方法是使用神经网络对听觉和视觉信号进行多模态融合来解决声源分离问题。这种跨模态的方法也常被用于语音增强。该方法通过让模型同时学习音频和视频的表征,并通过视频的辅助,更好地学习到音频中不同说话人的声音信息。
与纯音频的音源分离方法相比,音频视频结合的方法往往具有更高的分离质量。同时,跨模态的方法被证明在混合有背景噪声且有多个说话人的场景中表现优于纯音频方法。但现有的跨模态方法也有一定局限性,比如要先将视频通过人脸检测模型的预处理,并且在处理多个说话人、不同性别的说话人的应用场景下,无法取得较好的效果,另外,由于跨模态方法的局限性,因此也无法应用在网络视频和电视视频上。
发明内容
为解决上述问题,提供一种通过自监督方式预训练多模态网络模型并且可以应用在多个说话人以及网络视频、电视视频中的语音分离方法及装置,本发明采用了如下技术方案:
本发明提供了一种基于视听网络的多模态语音分离方法,用于从待分离音视频中分离出画面中说话人的语音,其特征在于,包括如下步骤:步骤S1-1,利用预定的第一预处理方法对包含噪声的第一音视频训练数据进行处理得到第一预处理数据;步骤S1-2,构建多模态网络模型;步骤S1-3,将第一预处理数据输入多模态网络模型进行训练,直到多模态网络模型收敛从而得到训练好的多模态网络模型作为音视频对齐判断模型;步骤S1-4,利用预定的第二预处理方法对第二音视频训练数据进行处理得到第二预处理数据;步骤S1-5,搭建Wave-U-Net分割模型,并与音视频对齐判断模型构成视听模型;步骤S1-6,将第二预处理数据输入视听模型进行训练,直到视听模型收敛从而得到训练好的视听模型作为视音频分割模型;步骤S1-7,将待分离音视频输入视音频分割模型得到画面中说话人的语音,其中,步骤S1-4中第二预处理方法包括对第二音视频训练数据中的视频进行说话人个数标注并按照说话人个数进行分类从而得到多个子集作为第二预处理数据,步骤S1-6中将第二预处理数据中的各个子集按照说话人个数由小到大的顺序逐步输入视听模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110208096.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种带锚碇的长趾单列沉箱码头结构
- 下一篇:一种用于煤矿机电设备的降温装置