[发明专利]虚拟形象视频合成方法及设备有效

申请号：	202111406811.8	申请日：	2021-11-24
公开（公告）号：	CN114222179B	公开（公告）日：	2022-08-30
发明（设计）人：	刘永进;温玉辉	申请（专利权）人：	清华大学
主分类号：	H04N21/439	分类号：	H04N21/439;H04N21/44;H04N21/4402;H04N21/472;G06V40/20;G06V40/16
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	吴欢燕
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	虚拟形象视频合成方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种虚拟形象视频合成方法，其特征在于，包括：

确定待合成的音频数据的音频特征；

基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息；

从预设视频库中提取与所述第一动作信息对应的初始视频，所述初始视频包括：虚拟形象；

确定所述初始视频中所述虚拟形象的头部姿态信息；

基于所述脸部表情信息和所述头部姿态信息，得到脸部关键点投影图；

基于所述脸部关键点投影图，确定与所述虚拟形象对应的脸部视频图像；

合成所述初始视频和所述脸部视频图像，得到目标视频；

其中，所述预设视频库包括：至少两帧按时序排列的视频图像，所述视频图像包括：具有第二动作信息的虚拟形象；

所述从预设视频库中提取与所述第一动作信息对应的初始视频，包括：

从所述预设视频库中，选取至少两帧所述视频图像，以形成所述初始视频，在选取的过程中，对选取的至少两帧所述视频图像的时序进行重排序，以使所述初始视频满足第一预设条件；

其中，所述第一预设条件包括：所述选取的至少两帧视频图像中的所述第二动作信息与所述第一动作信息之间的距离小于第一预设值；

其中，所述从所述预设视频库中，选取至少两帧所述视频图像，以形成所述初始视频，包括：

从所述预设视频库中选取满足所述第一预设条件的所述视频图像，形成视频图像集合；

从所述视频图像集合中选择至少两帧所述视频图像，形成第一视频图像序列，所述第一视频图像序列中相邻的两帧所述视频图像中的所述第二动作信息之间的距离小于第二预设值；

将所述第一视频图像序列划分成至少两个子序列；

针对每个所述子序列，从所述第一视频图像序列中选取一帧所述视频图像，替换所述子序列中作为中间帧的所述视频图像，以使得替换后的各所述子序列形成的第二视频图像序列中，第i+1帧所述视频图像和第j帧所述视频图像中的所述第二动作信息之间的距离，与第i帧所述视频图像和第j-1帧所述视频图像中的所述第二动作信息之间的距离之和小于第三预设值，所述i为大于或等于0的整数，所述j为大于或等于1的整数；

利用所述第二视频图像序列，形成所述初始视频。

2.根据权利要求1所述的虚拟形象视频合成方法，其特征在于，所述合成所述初始视频和所述脸部视频图像，得到目标视频，包括：

基于所述头部姿态信息和所述脸部表情信息，确定脸部关键点；

利用所述脸部关键点，建立脸部掩膜；

利用建立的所述脸部掩膜，将所述脸部视频图像融合在所述初始视频中虚拟形象中，得到所述目标视频。

3.根据权利要求1或2所述的虚拟形象视频合成方法，其特征在于，所述基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息，包括：

将所述音频特征和预设初始动作信息输入动作预测模型，得到所述动作预测模型输出的所述第一动作信息；

将所述音频特征和预设初始脸部表情信息输入表情预测模型，得到所述表情预测模型输出的脸部表情信息；

其中，所述动作预测模型通过音频特征样本、初始动作信息样本和第一动作信息样本训练得到，所述表情预测模型通过所述音频特征样本、初始脸部表情信息样本和脸部表情信息样本训练得到。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】