[发明专利]视频生成方法、装置、电子设备及存储介质有效
申请号: | 202110774445.5 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113507627B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 郭玉东;石彪;李廷照;户磊 | 申请(专利权)人: | 北京的卢深视科技有限公司;合肥的卢深视科技有限公司 |
主分类号: | H04N21/233 | 分类号: | H04N21/233;H04N21/234;H04N21/242;H04N21/43;H04N21/439;H04N21/44;G06N3/04;G06N3/08 |
代理公司: | 北京智晨知识产权代理有限公司 11584 | 代理人: | 张婧 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 生成 方法 装置 电子设备 存储 介质 | ||
本发明实施例涉及计算机视觉领域,公开了一种视频生成方法、装置、电子设备及存储介质。本发明的视频生成方法,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。应用于语音驱动视频生成的过程,使得生成的视频语音和人像严格匹配同步。
技术领域
本发明实施例涉及计算机视觉领域,特别涉及一种视频生成方法、装置、电子设备及存储介质。
背景技术
在人工智能、计算机视觉等领域中,模拟真人原型的数字人或虚拟人已经得到了越来越多的应用。数字人或虚拟人的生成主要利用基于语音驱动的视频生成技术,通过估计出此时此刻人脸的表情动作、说话风格从而生成与原始视频一样逼真的视觉效果。目前大多通过重建3D人脸、高效的回归表情系数或2D面部关键点等处理方法实现语音驱动视频生成。
然而,上述处理方法大多没有考虑到人物的肢体动作变化,导致生成的视频死板、僵硬。另外由于对人脸进行各种解析处理,这些中间解析处理过程造成了人脸信息的损失,使得生成的视频语音和人脸图像并不完全匹配、同步。
发明内容
本发明实施方式的目的在于提供一种视频生成方法、电子设备及存储介质,使得生成的视频语音和人物图像严格同步。
为解决上述技术问题,本发明的实施方式提供了一种视频生成方法,包括:根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。
本发明的实施方式还提供了一种视频生成装置,包括:
数据处理模块,用于根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征;获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量;
视频生成模块,用于将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型,获取与所述目标音频数据同步的人像视频,其中,所述人像视频包括多帧人物图像,所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的视频生成方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的视频生成方法。
本发明实施方式提供的视频生成方法,利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系,通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频,获取的人像视频中包含音频特征和人体姿态向量之间的映射关系,使得语音和人物图像严格匹配、同步,实现语音驱动视频产生逼真生动的感官效果。
另外,本发明实施方式提供的视频生成方法,根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征,包括:根据每帧的第一音频特征和每帧对应的相邻帧的第一音频特征,获取所述目标音频数据每帧的音频特征。按照预先训练的视频生成模型对应的视频帧率提取音频特征,进一步保证语音和人物图像的精准匹配;通过将前后帧的音频特征结合作为当前帧的音频特征,保证后续视频生成的语音效果平稳连贯。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京的卢深视科技有限公司;合肥的卢深视科技有限公司,未经北京的卢深视科技有限公司;合肥的卢深视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110774445.5/2.html,转载请声明来源钻瓜专利网。