[发明专利]一种基于多重注意力视听融合的音频立体化方法有效
申请号: | 202110340463.2 | 申请日: | 2021-03-30 |
公开(公告)号: | CN113099374B | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 邵杰;张文 | 申请(专利权)人: | 四川省人工智能研究院(宜宾) |
主分类号: | H04S1/00 | 分类号: | H04S1/00;H04S7/00;G06V20/40;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京正华智诚专利代理事务所(普通合伙) 11870 | 代理人: | 杨浩林 |
地址: | 644000 四川省宜宾市临*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多重 注意力 视听 融合 音频 立体化 方法 | ||
本发明公开了一种基于多重注意力视听融合的音频立体化方法,属于多媒体信号处理领域,该方法设计了能实现对视觉特征与音频特征进行有效跨模态融合的视听注意力融合模块,并在此基础上设计了多重注意力融合模型,能将原始视觉特征张量中与声源空间信息高度相关的特征提取出来并注入到多个不同等级的音频特征中,从而赋予了单声道音频以空间信息,将其转化为立体声信号。
技术领域
本发明属于多媒体信号处理领域,具体涉及一种基于多重注意力视听融合的音频立体化方法。
背景技术
随着互联网及多媒体技术的发展,人们在生活中每天会接触到大量的视频媒体文件,其中大部分的视频所包含的音频文件都是简单的单声道音频,而带有高质量的立体声或双耳音频的视频相对较少,这是由于网络中大部分的视频都是由普通的用户所拍摄制作。所谓高质量的立体声,是指准确记录了录制现场的声源空间信息的立体声。当用户听到这样的音频时,大脑的双耳效应能够提取出音频中的这些空间信息,从而使用户仿佛身处录制现场,从而获得更丰富的沉浸式视听体验。普通的用户一般使用的视频拍摄设备是手机或者普通的相机,这些设备不具备录制立体声的功能,要录制高质量的立体声需要一定的专业知识和专业设备。因此,研究一种能够将普通设备录制的单声道音频转换为高质量的立体声音频的算法具有极大的价值和现实意义,其能够使普通用户也具有录制带有高质量立体声的视频的能力,从而提升用户的视听体验。
针对该研究课题,Gao和Grauma在文献“RuohanGao and KristenGrauman.2019.2.5D Visual Sound.In IEEE Conference on Computer Vision andPattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019.324–333”中提出了有效的思路:单声道音频本身不含有任何空间信息,想要将单声道音频信号转化为含有空间特征的场景立体声需要额外的空间信息作为引导,而视频中的视觉帧正好记录下了录制现场丰富的场景信息,因此可以将视频帧中的空间场景特征提取出来,将其注入到单声道音频特征中,从而将其转化为含有空间特征的立体声信号。
这一音频立体化任务是近些年的联合视听学习领域出现的比较新颖的课题,现有的工作成果比较有限。该任务的关键点在于如何有效地提取出视频帧中与声源高度相关的空间信息并将其有效地注入音频信号中。现有的主要工作采用的方法相对比较简单且解释性欠佳,取得的立体声生成效果也不尽如人意。具体来说,Gao和Grauma在文献“RuohanGaoand Kristen Grauman.2019.2.5D Visual Sound.In IEEE Conference on ComputerVision and Pattern Recognition,CVPR 2019,Long Beach,CA,USA,June 16-20,2019.324–333”中设计的框架只是简单地将音频和视频特征分别提取出来,然后将两个模态的特征张量在通道维度进行联接,取得的效果不够理想,且从理论上不具有很好的解释性。Zhou等人在文献“Hang Zhou,XudongXu,Dahua Lin,Xiaogang Wang,and ZiweiLiu.2020.SepStereo:Visually Guided Stereophonic Audio Generation byAssociating Source Separation.In Computer Vision-ECCV 2020-16th EuropeanConference,Glasgow,UK,August 23-28,2020,Proceedings,Part XII.52–69”中基于前人的工作设计了一个多任务网络框架,将音频空间化任务与音源分离任务整合起来,从而使用了额外的单声道音频数据训练网络,最终实现对立体声的生成。然而其设计的音频视频模态融合网络依旧比较简单,其核心操作只是将两种模态的特征张量进行相乘融合,取得的效果有限,还有待进一步的提升。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于多重注意力视听融合的音频立体化方法解决了以下两个问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川省人工智能研究院(宜宾),未经四川省人工智能研究院(宜宾)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110340463.2/2.html,转载请声明来源钻瓜专利网。