[发明专利]一种基于图像补全的唇形同步人脸伪造生成方法及系统有效
| 申请号: | 202210543484.9 | 申请日: | 2022-05-19 |
| 公开(公告)号: | CN114663962B | 公开(公告)日: | 2022-09-16 |
| 发明(设计)人: | 纪守领;包晗;王琴应;张旭鸿;王总辉;杨星 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06V40/16 | 分类号: | G06V40/16;G06V20/40;G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图像 形同 步人脸 伪造 生成 方法 系统 | ||
1.一种基于图像补全的唇形同步人脸伪造生成方法,其特征在于,包括以下步骤:
步骤1:获取人脸视频及对应的音频,将视频帧和音频帧对齐,提取多帧的人脸图像、头部姿态参数和梅尔频谱作为训练样本;对人脸图像进行预处理,生成擦除嘴部后的面部图像;
步骤2:利用训练样本对人脸伪造生成模型进行训练,所述的人脸伪造生成模型包括音频特征提取模块、唇形同步模块、嘴部生成模块以及融合模块;
所述的音频特征提取模块用于对步骤1得到的梅尔频谱进行特征提取,生成最终音频特征;所述的唇形同步模块用于根据最终音频特征生成多级唇形图像特征,并根据最后一级唇形图像特征生成唇形图像,计算生成的唇形图像与人脸图像样本中的唇形图像之间的唇形损失,所述的唇形损失包括均方误差损失和对比损失;所述的嘴部生成模块用于根据多级唇形图像特征和头部姿态参数生成多级嘴部图像特征,并根据最后一级嘴部图像特征生成嘴部图像,计算生成的嘴部图像与人脸图像样本中的嘴部图像之间的嘴部损失,所述的嘴部损失使用均方误差损失;所述的融合模块用于将多级嘴部图像特征融合到步骤1中所述的擦除嘴部后的面部图像中,计算融合损失,所述的融合损失使用PCONV网络对应的融合损失;
根据唇形损失、嘴部损失、融合损失的加权损失之和更新人脸伪造生成模型的参数;
步骤3:利用训练好的人脸伪造生成模型,生成针对特定音频下嘴部动作的伪造人脸图像。
2.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法,其特征在于,所述的步骤1包括:
获取真实视频,所述视频中的每一帧均包含完整的人脸图像,且包含人物说话的音频;
对视频中的所有帧提取人脸图像集合,截取人脸图像中的唇形部分作为样本唇形图像,并获取每一帧人脸图像相对于相机的头部姿态参数;
构建嘴部擦除网络,从人脸图像集合中随机取出部分人脸图像并标记嘴部位置,对嘴部擦除网络进行训练,利用训练后的嘴部擦除网络对未标记嘴部位置的人脸图像进行嘴部位置识别并擦除,保留面部图像;
将时域的音频转化为频域的梅尔频谱,频域采样率与视频帧采样率一致。
3.根据权利要求2所述的基于图像补全的唇形同步人脸伪造生成方法,其特征在于,所述的嘴部擦除网络采用Unet网络,用于生成表示嘴部位置的嘴部掩膜,根据嘴部掩膜将人脸图像中的嘴部位置擦除。
4.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法,其特征在于,所述的音频特征提取模块由a个音频下采样层和一个LSTM层构成,首先通过若干音频下采样层对多帧梅尔频谱依次进行降维处理,生成多级音频特征,再由LSTM层对多帧梅尔频谱的最后一级音频特征进行融合,生成最终音频特征。
5.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法,其特征在于,所述的唇形同步模块由b个串联的唇形上采样层组成,b≥3;将音频特征提取模块得到的最终音频特征作为输入,利用多个唇形上采样层先后生成多级唇形图像特征,将最后一级唇形图像特征转化为唇形图像。
6.根据权利要求5所述的基于图像补全的唇形同步人脸伪造生成方法,其特征在于,所述的嘴部生成模块由c个串联的嘴部上采样层组成,c≥3;将唇形同步模块生成的第一级唇形图像特征和头部参数拼接后作为第一个嘴部上采样层的输入,将第一个嘴部上采样层输出的第一级嘴部图像特征与第二级唇形图像特征拼接后作为第二个嘴部上采样层的输入,将第二个嘴部上采样层输出的第二级嘴部图像特征与第三级唇形图像特征拼接后作为第三个嘴部上采样层的输入,将第三个嘴部上采样层输出的第三级嘴部图像特征作为下一个嘴部上采样层的输入,直至生成最后一级嘴部图像特征并转化为嘴部图像。
7.根据权利要求1所述的基于图像补全的唇形同步人脸伪造生成方法,其特征在于,所述的融合模块采用Unet网络,将擦除嘴部后的面部图像作为Unet网络中编码器的输入,将编码器的各层输出与嘴部生成模块生成的多级嘴部图像特征融合到解码器的各层输入中,生成融合后的完整人脸图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210543484.9/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





