[发明专利]一种基于内容感知的深度肖像视频合成方法在审
申请号: | 202211064320.4 | 申请日: | 2022-08-31 |
公开(公告)号: | CN115578298A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 杨志景;郑斯;陈俊彬 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06T5/50 | 分类号: | G06T5/50;G06T17/00;G06T7/194;G06V40/16;G06V20/40;G06V40/20 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 内容 感知 深度 肖像 视频 合成 方法 | ||
本发明涉及人脸图像与视频合成技术领域,公开了一种基于内容感知的深度肖像视频合成方法,通过运动估计模块对肖像区域的运动进行了充分的建模,并通过背景估计模块来提取目标参考图片的背景,从而获得充分的全内容肖像视频网络输入内容,以最大限度地提高肩部和背景等区域的确定性,全内容肖像视频网络对肖像条件和背景条件进行细化和融合,并与先前生成的帧合成视频,全内容肖像视频网络只需学习对内容进行细化和融合,而不需要修复缺失的内容,从而确保合成视频中的确定性和稳定性。
技术领域
本发明涉及人脸图像与视频的合成技术领域,特别是涉及一种基于内容感知的深度肖像视频合成方法。
背景技术
人脸作为身份认证信息的特殊属性,是众多计算机领域的研究对象。除人脸检测、识别以及活性检测等方向外,人脸合成领域同样具有很高的活跃度,且伴随着近年来深度学习技术的突破性进展,这一类技术也经历着飞速的发展,在隐私保护、影视动画、娱乐商用等各个领域得到了广泛的应用。相较于人脸检测与识别,人脸合成是一个更加开放的领域。这一领域不仅涉及到如建模、形变与渲染等诸多图形学技术,还涉及到深度学习中关于图像生成的革新技术。不同的人脸合成方法虽然可能具有类似的框架与技术路线,但在具体细节以及实现方法上可能千差万别。因此,人脸合成领域的研究与探索也在为技术本身的发展开拓空间。另外,利用人脸合成技术制作的图像或视频是多媒体篡改取证领域的重点关注对象。推动人脸合成技术发展,对数字取证领域的进步也将产生积极的推动作用。人脸重演技术,能够利用源人脸的动作来操纵目标人脸,使其做出相应的面部动作,实现实时操纵或者驱动动画角色的面部表情。基于内容感知的深度肖像视频合成方法能够将驱动人物动作完整地迁移到目标人物上,合成流畅且细节丰富的视频。
人脸合成是目前深度学习中神经网络应用在人脸视频合成方面的关键问题,对话式头部视频重演旨在将整个头部运动从源身份转移到目标身份,并完全控制目标演员,在计算机视觉和机器学习研究中越来越受欢迎,并有望在电影后期制作、视觉配音和社交媒体等多种应用中得到应用。它可以分为主题不可知的方法和主题特定的方法。主题特定和主题不特定的区别在于目标演员是特定的人物还是非特定人物,也就是训练好的模型只能用于同一个人来进行视频重演和训练好的模型其他人都能用来进行视频重演的区别。受只使用目标演员的一幅或几幅图像的限制,不可知论方法通常难以合成高保真视频。相反,通常使用特定于主题的方法训练目标人物的视频。训练后,可以合成一段高质量的人物视频。
虽然对话式头部视频重演已经取得了令人印象深刻的结果,但要生成具有良好时间连贯性和泛化性的对话视频仍然是一个具有挑战性的问题。现有的大多数方法都使用参数化人脸模式或人脸标志来传递运动,然后通过神经网络将人脸标志或参数化人脸模型的合成渲染转化为真实的视频帧。由于参数化人脸模型和人脸标志只对人脸区域进行建模,因此用于合成最终图像的神经网络输入仅包含人脸区域。在合成图像中,除人脸区域外的其他区域都是通过神经网络进行修复的,具有较大的不确定性。因此,合成视频通常是不稳定的。此外,对于需要修复的区域,神经网络可能会过度适应训练集,无法合成训练集中未出现的姿势,这可能会导致严重的伪影。
现有技术公开了一种基于三维人脸重构和视频关键帧优化的合成视频生成方法,包括以下步骤:采用卷积神经网络对输入的人脸图像优化拟合三维人脸形变模型的各个参数;利用目标视频和人脸模型的参数训练语音到表情和头部姿势映射网络利用训练好的语音到表情和头部姿势映射网络从输入的音频中获取面部表情和头部姿势参数;合成人脸并对合成人脸进行渲染生成逼真人脸视频帧;利用参数化的人脸图像和视频帧中的人脸图像训练基于生成对抗网络的渲染网络,所述渲染网络用于为每一帧的人脸图像生成背景;基于视频关键帧优化进行人脸背景渲染和视频合成。该专利在合成图像中,除人脸区域外的其他区域都是通过神经网络进行修复的,具有较大的不确定性。因此,合成视频通常是不稳定的。此外,对于需要修复的区域,神经网络可能会过度适应训练集,无法合成训练集中未出现的姿势,这可能会导致严重的伪影,导致合成视频不流畅且细节有瑕疵。
发明内容
本发明的目的是提供一种视频流畅且细节更丰富的基于内容感知的深度肖像视频合成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211064320.4/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法