[发明专利]一种基于图像补全的唇形同步人脸伪造生成方法及系统有效
| 申请号: | 202210543484.9 | 申请日: | 2022-05-19 |
| 公开(公告)号: | CN114663962B | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 纪守领;包晗;王琴应;张旭鸿;王总辉;杨星 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图像 形同 步人脸 伪造 生成 方法 系统 | ||
本发明公开了一种基于图像补全的唇形同步人脸伪造生成方法及系统,属于人工智能人脸生成领域。包括:获取人脸视频及对应的音频,将视频帧和音频帧对齐,提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本;对人脸图像进行预处理,生成擦除嘴部后的面部图像;对人脸伪造生成模型进行训练,利用训练好的人脸伪造生成模型,生成针对特定音频下嘴部动作的伪造人脸图像。本发明在面部生成时采用了图像补全的技术,在只修改嘴部的前提下生成因人物表达内容不一致造成的嘴部差异。相较于传统的人脸伪造生成方法,本发明提供了唇形同步功能,在视频和音频结合上进行伪造生成,且不修改面部或背景的其余位置,能够达到更逼真的伪造效果。
技术领域
本发明涉及人工智能人脸生成领域,尤其涉及一种基于图像补全的唇形同步人脸伪造生成方法及系统。
背景技术
人脸伪造生成在Deepfake出现后成为了人工智能的热门话题。相比一般的人脸生成方法,Deepfake能够实现对目标人物表情的迁移并将目标人脸进行替换为特定人脸。Deepfake技术可以广泛应用于影视创作,娱乐等方面,具有极大的研究价值。一般的Deepfake方法使用编码器-解码器结构,使用两组编码器-解码器模型分别对源人物和目标人物进行重建,其中编码器可以提取人物面部的动作和表情状态,而人物的面部风格和纹理则保存在解码器的参数中。另一种换脸思路源自于图像风格迁移,将人物的面部表情看作风格,使用风格迁移的方法迁移到目标人物上。现有的Deepfake生成方法在视频伪造逼真人脸时性能较好,能够生成以假乱真的人脸,但是对于一个真实视频来说,视频和音频的结合是非常有必要的,上述方法仅停留在图像和视频的层面,并未对替换后的人物音频进行修改,在真实场景下视频和音频的结合才能提高生成人物的真实性。
通过音频输入驱动面部的表情一直是计算机视觉和图形学的重要研究兴趣,随着人工智能和神经网络的发展,当前的主流方法是利用人脸识别的关键点定位方法对人物的面部状态进行定位,即通过输入的音频驱动嘴部的关键点运动,在确定关键点后通过使用3D建模或神经网络生成模型等方法进行对应嘴部状态的重建,从而达到音频驱动唇形同步的效果。
可以看到,目前的唇形同步方法至少需要3个独立的步骤才能够进行,这需要人工干预训练,费时费力,并且每个步骤在训练和生成时都会引入损失,导致最后的结果偏差较大。具体来说,目前的唇形同步方法需要先训练模型使得嘴部的关键点和音频特征进行匹配,然后根据给定的音频生成特定嘴部关键点,最后将关键点作为生成唇形的依据,并拼接其余脸部位置的关键点,生成最后的音频驱动面部图像。这其中每个部分都需要独立的网络,同样也会产生独立的损失,这使得在最后结合的时候往往会出现损失的累加导致较大的偏差。
另外,现有方法在生成嘴部关键点后需要和其他人脸关键点进行结合,引入了不必要的扰动,影响最后的生成质量。因为头部的摆动方式和说话内容一般来说是无关的,这使得面部的重建需要整体重建,从而引入了一些本不需要进行变化的重建内容,添加了更多的修改,这使得最后整体生成扰动更大,更容易出现瑕疵,也会更容易被检测系统检测。
综上,如何实现端到端且支持精确改动的唇形同步方法是人工智能人脸生成领域的重要研究方向之一。
发明内容
针对现有的人脸伪造生成方法步骤繁琐和生成质量受限等不足,本发明提供了一种基于图像补全的唇形同步人脸伪造生成方法及系统。通过对原始目标人物的嘴型进行擦除和再生成,对原始目标人物的说话内容和唇形做出更改,达到伪造生成的目的。本发明摆脱了关键点定位技术在网络训练时的约束,除对人脸的提取和人脸图像进行嘴部擦除预处理外,在训练和生成过程是端到端的,步骤少,降低了累积偏差。本发明并不修改除嘴部以外的部分,并使用图像补全技术对擦除部分的边界进行融合,修改扰动小,唇形同步生成质量高。
为实现上述发明目的,本发明提供以下技术方案:
一种基于图像补全的唇形同步人脸伪造生成方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210543484.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





