[发明专利]虚拟形象视频合成方法及设备有效

申请号：	202111406811.8	申请日：	2021-11-24
公开（公告）号：	CN114222179B	公开（公告）日：	2022-08-30
发明（设计）人：	刘永进;温玉辉	申请（专利权）人：	清华大学
主分类号：	H04N21/439	分类号：	H04N21/439;H04N21/44;H04N21/4402;H04N21/472;G06V40/20;G06V40/16
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	吴欢燕
地址：	100084 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	虚拟形象视频合成方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种虚拟形象视频合成方法及设备，方法包括：确定待合成的音频数据的音频特征；基于音频特征，确定与音频数据对应的第一动作信息和脸部表情信息；从预设视频库中提取与第一动作信息对应的初始视频，初始视频包括：虚拟形象；确定初始视频中虚拟形象的头部姿态信息；基于脸部表情信息和头部姿态信息，得到脸部关键点投影图；基于脸部关键点投影图，确定与虚拟形象对应的脸部视频图像；合成初始视频和脸部视频图像，得到目标视频。本发明用以解决现有技术中根据音频数据，生成的虚拟人视频中虚拟人真实感差的缺陷。

技术领域

本发明涉及计算机技术领域，尤其涉及一种虚拟形象视频合成方法及设备。

背景技术

在日常生活中，经常会根据一段音频，生成与该音频对应的虚拟形象节奏感动作高清视频，其中，高清视频包括：虚拟形象的说话手势动作或者虚拟形象的舞蹈动作，其中，虚拟形象包括虚拟人、虚拟动物等。

在现有技术中，根据音频生成虚拟人节奏感动作高清视频合成技术较少，往往通过音频生成虚拟人动作，并绘制成骨架图，然后，依赖生成式对抗网络(GAN)训练骨架图与虚拟人动作视频帧之间的关系，最后，利用GAN网络输出骨架图对应的虚拟人动作视频帧，以得到最终的高清视频。

但是，现有技术利用绘制骨架图的技术手段，无法准确识别视频中虚拟人的人体姿态，对于虚拟人的局部细节姿态，例如，手部细节姿态、脸部姿态等，更是无法准确识别，导致最终的高清视频中虚拟人出现肢体部分丢失，真实感较差，效果很不理想。

发明内容

本发明提供一种虚拟形象视频合成方法及设备，用以解决现有技术中根据音频数据，生成的虚拟人视频中虚拟人真实感差的缺陷，实现生成虚拟形象真实、自然的虚拟形象视频。

本发明提供一种虚拟形象视频合成方法，包括：

确定待合成的音频数据的音频特征；

基于所述音频特征，确定与所述音频数据对应的第一动作信息和脸部表情信息；

从预设视频库中提取与所述第一动作信息对应的初始视频，所述初始视频包括：虚拟形象；