[发明专利]虚拟形象视频合成方法及设备有效
申请号: | 202111406811.8 | 申请日: | 2021-11-24 |
公开(公告)号: | CN114222179B | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 刘永进;温玉辉 | 申请(专利权)人: | 清华大学 |
主分类号: | H04N21/439 | 分类号: | H04N21/439;H04N21/44;H04N21/4402;H04N21/472;G06V40/20;G06V40/16 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 吴欢燕 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 形象 视频 合成 方法 设备 | ||
本发明提供一种虚拟形象视频合成方法及设备,方法包括:确定待合成的音频数据的音频特征;基于音频特征,确定与音频数据对应的第一动作信息和脸部表情信息;从预设视频库中提取与第一动作信息对应的初始视频,初始视频包括:虚拟形象;确定初始视频中虚拟形象的头部姿态信息;基于脸部表情信息和头部姿态信息,得到脸部关键点投影图;基于脸部关键点投影图,确定与虚拟形象对应的脸部视频图像;合成初始视频和脸部视频图像,得到目标视频。本发明用以解决现有技术中根据音频数据,生成的虚拟人视频中虚拟人真实感差的缺陷。
技术领域
本发明涉及计算机技术领域,尤其涉及一种虚拟形象视频合成方法及设备。
背景技术
在日常生活中,经常会根据一段音频,生成与该音频对应的虚拟形象节奏感动作高清视频,其中,高清视频包括:虚拟形象的说话手势动作或者虚拟形象的舞蹈动作,其中,虚拟形象包括虚拟人、虚拟动物等。
在现有技术中,根据音频生成虚拟人节奏感动作高清视频合成技术较少,往往通过音频生成虚拟人动作,并绘制成骨架图,然后,依赖生成式对抗网络(GAN)训练骨架图与虚拟人动作视频帧之间的关系,最后,利用GAN网络输出骨架图对应的虚拟人动作视频帧,以得到最终的高清视频。
但是,现有技术利用绘制骨架图的技术手段,无法准确识别视频中虚拟人的人体姿态,对于虚拟人的局部细节姿态,例如,手部细节姿态、脸部姿态等,更是无法准确识别,导致最终的高清视频中虚拟人出现肢体部分丢失,真实感较差,效果很不理想。
发明内容
本发明提供一种虚拟形象视频合成方法及设备,用以解决现有技术中根据音频数据,生成的虚拟人视频中虚拟人真实感差的缺陷,实现生成虚拟形象真实、自然的虚拟形象视频。
本发明提供一种虚拟形象视频合成方法,包括:
确定待合成的音频数据的音频特征;
基于所述音频特征,确定与所述音频数据对应的第一动作信息和脸部表情信息;
从预设视频库中提取与所述第一动作信息对应的初始视频,所述初始视频包括:虚拟形象;
确定所述初始视频中所述虚拟形象的头部姿态信息;
基于所述脸部表情信息和所述头部姿态信息,得到脸部关键点投影图;
基于所述脸部关键点投影图,确定与所述虚拟形象对应的脸部视频图像;
合成所述初始视频和所述脸部视频图像,得到目标视频;
其中,所述预设视频库包括:至少两帧按时序排列的视频图像,所述视频图像包括:具有第二动作信息的虚拟形象;
所述从预设视频库中提取与所述第一动作信息对应的初始视频,包括:
从所述预设视频库中,选取至少两帧所述视频图像,以形成所述初始视频,在选取的过程中,对选取的至少两帧所述视频图像的时序进行重排序,以使所述初始视频满足第一预设条件;
其中,所述第一预设条件包括:所述选取的至少两帧视频图像中的所述第二动作信息与所述第一动作信息之间的距离小于第一预设值;
其中,所述从所述预设视频库中,选取至少两帧所述视频图像,以形成所述初始视频,包括:
从所述预设视频库中选取满足所述第一预设条件的所述视频图像,形成视频图像集合;
从所述视频图像集合中选择至少两帧所述视频图像,形成第一视频图像序列,所述第一视频图像序列中相邻的两帧所述视频图像中的所述第二动作信息之间的距离小于第二预设值;
将所述第一视频图像序列划分成至少两个子序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111406811.8/2.html,转载请声明来源钻瓜专利网。