[发明专利]一种基于稀疏视图的语音驱动人脸合成方法在审

申请号：	202310372477.1	申请日：	2023-03-30
公开（公告）号：	CN116385603A	公开（公告）日：	2023-07-04
发明（设计）人：	王好谦;党如静	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	G06T13/20	分类号：	G06T13/20;G06T15/08;G06T7/62;G06V20/40;G06V40/20;G06V40/16;G06V10/82;G06N3/0464;G06N3/08
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	王震宇
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于稀疏视图语音驱动合成方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于稀疏视图的语音驱动人脸合成方法，包括如下步骤：S1：从输入的人脸视频中选取帧作为参考图像，使用特征编码网络从参考图像中提取特征体；S2：构建语音映射网络，将输入的语音信号映射为3DMM参数；S3：将所述3DMM参数通过语义映射网络，得到高维运动描述符；S4：构建变形网络，在运动描述符的引导下对特征体进行变形；S5：构建脸部辐射场，将查询点的五维坐标与变形后的像素对齐的特征向量、运动描述符进行拼接，输入到多层感知机中对体积属性进行预测，经过体渲染得到目标图像。本发明通过增加变形模块以及语音映射模块，能够在较短的人脸视频输入下产生更精确的人脸变形，生成更加连续、高精度的人脸动画。

技术领域

本发明涉及计算机视觉、计算机图像学领域，特别是涉及一种基于稀疏视图的语音驱动人脸合成方法。

背景技术

语音驱动人脸动画的生成在虚拟现实、在线会议以及网络游戏等领域具有广泛的应用。然而，由于学习到语音信号和脸部运动之间的关联是一个跨模态任务，使用语音信号来控制面部表情以及姿势的变化较为困难，因此合成的人脸视频容易存在着脸部细节失真、帧间不连续以及延迟等问题。传统的基于二维的说话人脸生成方法主要依赖生成对抗网络，然而，由于缺少脸部的三维结构信息，传统的方法难以合成生动自然的人脸视频。目前，新兴的神经辐射场模型展现出强大的重建性能，但是由于原始的神经辐射场直接编码特定场景的几何和纹理信息，因此不能泛化到新的场景中，且其需要稠密的视图输入，因此难以应用到实际任务中。虽然，目前有一些算法通过构建二维的变形场以及从参考图像中提取特征先验实现了稀疏视图下语音驱动说话人脸的重建，但是仍然存在着变形不准确、输入帧较多以及合成视频缺乏帧间连续性的问题。有的算法所需要的视频过长，且其变形模块作用于二维图像，不具有人脸三维信息的束缚，因此变形不精确，重建结果缺乏视觉一致性。因此，现有技术中缺乏一种高效、高精度的语音驱动人脸合成方法。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明为了解决现有的问题，提供一种基于稀疏视图的语音驱动人脸合成方法。

为了解决上述问题，本发明采用的技术方案如下所述：

一种基于稀疏视图的语音驱动人脸合成方法，包括如下步骤：

S1：从输入的人脸视频中选取帧作为参考图像，使用特征编码网络从参考图像中提取特征体；

S2：构建语音映射网络，将输入的语音信号映射为3DMM参数；

S3：将所述3DMM参数通过语义映射网络，得到高维运动描述符；

S4：构建变形网络，在运动描述符的引导下对特征体进行变形；

S5：构建脸部辐射场，将查询点的五维坐标与变形后的像素对齐的特征向量、运动描述符进行拼接，输入到多层感知机中对体积属性进行预测，经过体渲染得到目标图像。

优选地，选取的参考图像帧数为4帧，在每次迭代过程中随机选取。

优选地，使用残差神经网络作为特征提取网络，进而将每张参考图像的图像信息编码成特征体。通过将特征信息作为神经辐射场的先验条件，进而估计出在稀疏帧输入下的未知视角信息。