[发明专利]基于音频和图像驱动的用于生成人脸说话视频的训练方法有效

申请号：	202211248353.4	申请日：	2022-10-12
公开（公告）号：	CN115330912B	公开（公告）日：	2023-03-24
发明（设计）人：	储琪;刘斌;俞能海;盛典墨	申请（专利权）人：	中国科学技术大学
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40;G06N3/0442;G06N3/047;G06N3/048;G06V20/40;G06V40/16;G06V10/82;G10L25/57;G10L25/30
代理公司：	中科专利商标代理有限责任公司 11021	代理人：	鄢功军
地址：	230026 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于音频图像驱动用于生成说话视频训练方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于音频和图像驱动的用于生成人脸说话视频的训练方法，包括：

获取预设帧数的视频样本，并构建人脸说话视频生成模型，其中，所述人脸说话视频生成模型包括音频特征提取器、图像编码器、音频-表情映射网络和生成器，所述音频-表情映射网络包括音频编码器、潜在向量编码器、映射网络以及注意力模块；

利用所述音频特征提取器对所述视频样本的音频进行特征提取，得到音频特征向量；利用所述音频编码器将所述音频特征向量进行编码处理，得到编码后的音频特征向量；利用所述图像编码器对所述视频样本进行投影处理，得到视频图像的扩展潜在向量；利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移，得到所述扩展潜在向量的位移原点；利用所述映射网络处理所述编码后的音频特征向量和所述扩展潜在向量的位移原点，得到扩展潜在向量的位移信息；利用所述注意力模块计算所述扩展潜在向量的位移信息的线性组合，得到加权的扩展潜在向量；利用所述生成器处理所述加权的扩展潜在向量，得到生成视频，其中，所述生成器基于StyleGAN2模型构建；

利用损失函数处理所述生成视频、与所述生成视频相对应的视频样本和所述扩展潜在向量，得到损失值，并根据所述损失值，优化所述人脸说话视频生成模型的参数；

迭代进行音频特征提取操作、音频编码操作、投影操作、位移原点获取操作、位移信息获取操作、加权的扩展潜在向量获取操作、生成视频获取操作以及优化操作，直到所述损失值满足预设条件，得到训练完成的人脸说话视频生成模型；

其中，所述扩展潜在向量的位移信息表示所述扩展潜在向量的预设维度在扩展潜在空间中的偏移量；

其中，所述利用所述图像编码器对所述视频样本进行投影处理，得到视频图像的扩展潜在向量包括：

利用所述图像编码器处理所述视频样本，得到线性输出向量，并将所述线性输出向量映射到具有第二预设维度的扩展潜在空间，得到潜在向量；

利用所述图像编码器计算平均潜在向量的偏移量，并将所述平均潜在向量的偏移量和所述潜在向量进行向量运算，得到所述扩展潜在向量；

其中，所述图像编码器基于ResNet18构建；

其中，所述平均潜在向量由所述StyleGAN2模型的投影网络通过计算随机潜在向量样本得到；

其中，利用所述潜在向量编码器计算所述视频图像的扩展潜在向量的位移，得到所述扩展潜在向量的位移原点包括：

获取所述视频样本中事先设置的潜在向量的预设数量的主成分的分量，并根据所述预设数量的主成分的分量，初始化所述潜在向量编码器的参数；

利用所述潜在向量编码器提取所述视频图像的扩展潜在向量的位移的特征信息，并将所述特征信息映射到一维向量中得到所述扩展潜在向量的位移原点。

2.根据权利要求1所述的训练方法，其中，利用所述音频特征提取器对所述视频样本的音频进行特征提取，得到音频特征向量包括：