[发明专利]基于音频和图像驱动的用于生成人脸说话视频的训练方法有效
| 申请号: | 202211248353.4 | 申请日: | 2022-10-12 |
| 公开(公告)号: | CN115330912B | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 储琪;刘斌;俞能海;盛典墨 | 申请(专利权)人: | 中国科学技术大学 |
| 主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40;G06N3/0442;G06N3/047;G06N3/048;G06V20/40;G06V40/16;G06V10/82;G10L25/57;G10L25/30 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 鄢功军 |
| 地址: | 230026 安*** | 国省代码: | 安徽;34 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 音频 图像 驱动 用于 生成 说话 视频 训练 方法 | ||
1.一种基于音频和图像驱动的用于生成人脸说话视频的训练方法,包括:
获取预设帧数的视频样本,并构建人脸说话视频生成模型,其中,所述人脸说话视频生成模型包括音频特征提取器、图像编码器、音频-表情映射网络和生成器,所述音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块;
利用所述音频特征提取器对所述视频样本的音频进行特征提取,得到音频特征向量;利用所述音频编码器将所述音频特征向量进行编码处理,得到编码后的音频特征向量;利用所述图像编码器对所述视频样本进行投影处理,得到视频图像的扩展潜在向量;利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移,得到所述扩展潜在向量的位移原点;利用所述映射网络处理所述编码后的音频特征向量和所述扩展潜在向量的位移原点,得到扩展潜在向量的位移信息;利用所述注意力模块计算所述扩展潜在向量的位移信息的线性组合,得到加权的扩展潜在向量;利用所述生成器处理所述加权的扩展潜在向量,得到生成视频,其中,所述生成器基于StyleGAN2模型构建;
利用损失函数处理所述生成视频、与所述生成视频相对应的视频样本和所述扩展潜在向量,得到损失值,并根据所述损失值,优化所述人脸说话视频生成模型的参数;
迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作,直到所述损失值满足预设条件,得到训练完成的人脸说话视频生成模型;
其中,所述扩展潜在向量的位移信息表示所述扩展潜在向量的预设维度在扩展潜在空间中的偏移量;
其中,所述利用所述图像编码器对所述视频样本进行投影处理,得到视频图像的扩展潜在向量包括:
利用所述图像编码器处理所述视频样本,得到线性输出向量,并将所述线性输出向量映射到具有第二预设维度的扩展潜在空间,得到潜在向量;
利用所述图像编码器计算平均潜在向量的偏移量,并将所述平均潜在向量的偏移量和所述潜在向量进行向量运算,得到所述扩展潜在向量;
其中,所述图像编码器基于ResNet18构建;
其中,所述平均潜在向量由所述StyleGAN2模型的投影网络通过计算随机潜在向量样本得到;
其中,利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移,得到所述扩展潜在向量的位移原点包括:
获取所述视频样本中事先设置的潜在向量的预设数量的主成分的分量,并根据所述预设数量的主成分的分量,初始化所述潜在向量编码器的参数;
利用所述潜在向量编码器提取所述视频图像的扩展潜在向量的位移的特征信息,并将所述特征信息映射到一维向量中得到所述扩展潜在向量的位移原点。
2.根据权利要求1所述的训练方法,其中,利用所述音频特征提取器对所述视频样本的音频进行特征提取,得到音频特征向量包括:
利用所述音频特征提取器分别获取距离所述视频样本的目标帧之前和之后第一预设时长的多个音频片段;
利用所述音频特征提取器的语音识别模型提取每个所述音频片段预设数量的逻辑单元,得到具有第二预设时长的多个逻辑单元,其中,任意两个逻辑单元所对应的音频互不重叠;
利用所述音频特征提取器将所述逻辑单元处理成第一预设维度的音频特征向量;
其中,所述音频特征提取器基于DeepSpeech构建,所述音频特征提取器包括双向LSTM网络、多个采用ReLU激活函数的全连接层和多个采用SoftMax激活函数的全连接层。
3.根据权利要求1所述的训练方法,其中,利用所述音频编码器将所述音频特征向量进行编码处理,得到编码后的音频特征向量包括:
利用所述音频编码器将所述音频特征向量进行转置,得到转置后的音频特征向量;
利用所述音频编码器对所述转置后的音频特征向量在时间维度上进行一维时间卷积,得到编码后的音频特征向量;
其中,所述音频编码器包括预设斜率的LeakyReLU激活函数和多个一维卷积层,每个所述一维卷积层包括偏置项和多个滤波器。
4.根据权利要求1所述的训练方法,其中,所述映射网络包括多个第一全连接层和多个第二全连接层;
其中,所述第一全连接层包括具有预设斜率的LeakyReLU激活函数和AdaIN层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211248353.4/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





