[发明专利]视频语音增强的方法及装置、电子设备和存储介质在审

申请号：	202211447626.8	申请日：	2022-11-18
公开（公告）号：	CN116343809A	公开（公告）日：	2023-06-27
发明（设计）人：	张恒	申请（专利权）人：	上海玄戒技术有限公司
主分类号：	G10L21/0208	分类号：	G10L21/0208;G06V10/26;G06V10/80;G06V10/82;G06V20/40;G06V40/16;G10L15/20;G10L15/25
代理公司：	北京法胜知识产权代理有限公司 11922	代理人：	黄海艳
地址：	201206 上海市中国(上海***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频语音增强方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了视频语音增强的方法及装置、电子设备和存储介质，涉及图像处理技术领域，主要包括：获取待增强视频中的画面深度信息、语义分割后的图像主体及注意力区域，获取所述待增强视频中的人脸区域，根据所述待增强视频中的音频、所述人脸区域及所述注意力区域进行音频增强处理，得到增强后的音频，将所述画面深度信息、语义分割后的图像主体及增强后的音频进行融合，以得到目标视频。与相关技术相比，本申请在对待增强视频中的音频进行增强处理时，将音频及对应的人脸区域及注意力区域进行了融合处理，使得音频与人脸区域及注意力区域保持同步增强，不仅增强视频中的声音，而且还对待增强视频中的显示画面进行了增强，从整体上提升了视频效果。

技术领域

本申请涉及数据处理技术领域，尤其涉及一种视频语音增强的方法及装置、电子设备和存储介质。

背景技术

人们越来越关注使用神经网络进行听觉和视觉信号的多模态融合，以解决各种与语音相关的问题。这些包括视听语音识别，从无声视频(例如唇读)中预测语音或文本，以及从视觉和语音信号中进行语言的无监督学习。这些方法利用同时记录的视觉和听觉信号之间的自然同步。

目前，常见的视听方法分析方法为基于卷积神经网络(Convolution NeuralNetwork,CNN)的多任务模型，该模型输出噪声语音频谱图以及输入嘴巴区域的重建，以完成视频画面中的音频分离，由此可见，相关技术中的视听方法也只用于语音分离，并不涉及针对视频数据中其他内容的处理过程。

发明内容

本申请提供了一种视频语音增强的方法、装置、电子设备和存储介质。其主要目的在于解决相关技术中的视听处理方法只用于语音分离的问题。

根据本申请的第一方面，提供了一种视频语音增强的方法，其中，包括：

获取待增强视频中的画面深度信息、语义分割后的图像主体及注意力区域；

获取所述待增强视频中的人脸区域；

根据所述待增强视频中的音频、所述人脸区域及所述注意力区域进行音频增强处理，得到增强后的音频；

将所述画面深度信息、语义分割后的图像主体及增强后的音频进行融合，得到目标视频。