[发明专利]视频生成方法、装置、电子设备及存储介质有效

申请号：	202110774445.5	申请日：	2021-07-08
公开（公告）号：	CN113507627B	公开（公告）日：	2022-03-25
发明（设计）人：	郭玉东;石彪;李廷照;户磊	申请（专利权）人：	北京的卢深视科技有限公司;合肥的卢深视科技有限公司
主分类号：	H04N21/233	分类号：	H04N21/233;H04N21/234;H04N21/242;H04N21/43;H04N21/439;H04N21/44;G06N3/04;G06N3/08
代理公司：	北京智晨知识产权代理有限公司 11584	代理人：	张婧
地址：	100083 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频生成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例涉及计算机视觉领域，公开了一种视频生成方法、装置、电子设备及存储介质。本发明的视频生成方法，包括：根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。应用于语音驱动视频生成的过程，使得生成的视频语音和人像严格匹配同步。

技术领域

本发明实施例涉及计算机视觉领域，特别涉及一种视频生成方法、装置、电子设备及存储介质。

背景技术

在人工智能、计算机视觉等领域中，模拟真人原型的数字人或虚拟人已经得到了越来越多的应用。数字人或虚拟人的生成主要利用基于语音驱动的视频生成技术，通过估计出此时此刻人脸的表情动作、说话风格从而生成与原始视频一样逼真的视觉效果。目前大多通过重建3D人脸、高效的回归表情系数或2D面部关键点等处理方法实现语音驱动视频生成。

然而，上述处理方法大多没有考虑到人物的肢体动作变化，导致生成的视频死板、僵硬。另外由于对人脸进行各种解析处理，这些中间解析处理过程造成了人脸信息的损失，使得生成的视频语音和人脸图像并不完全匹配、同步。

发明内容

本发明实施方式的目的在于提供一种视频生成方法、电子设备及存储介质，使得生成的视频语音和人物图像严格同步。

为解决上述技术问题，本发明的实施方式提供了一种视频生成方法，包括：根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。

本发明的实施方式还提供了一种视频生成装置，包括：

数据处理模块，用于根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征；获取与所述目标音频数据同步的目标视频数据中人物的人体姿态向量；

视频生成模块，用于将所述音频特征和所述音频特征对应的人体姿态向量通过预先训练的视频生成模型，获取与所述目标音频数据同步的人像视频，其中，所述人像视频包括多帧人物图像，所述多帧人物图像中包含所述音频特征和所述人体姿态向量之间的映射关系。

本发明的实施方式还提供了一种电子设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上述实施方式提及的视频生成方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式提及的视频生成方法。

本发明实施方式提供的视频生成方法，利用预先训练的视频生成模型建立音频特征和人体姿态向量之间的映射关系，通过这种映射关系将音频特征和人体姿态向量输入到视频生成模型中就能获取与音频同步的人像视频，获取的人像视频中包含音频特征和人体姿态向量之间的映射关系，使得语音和人物图像严格匹配、同步，实现语音驱动视频产生逼真生动的感官效果。

另外，本发明实施方式提供的视频生成方法，根据预先训练的视频生成模型对应的视频帧率提取目标音频数据每帧的音频特征，包括：根据每帧的第一音频特征和每帧对应的相邻帧的第一音频特征，获取所述目标音频数据每帧的音频特征。按照预先训练的视频生成模型对应的视频帧率提取音频特征，进一步保证语音和人物图像的精准匹配；通过将前后帧的音频特征结合作为当前帧的音频特征，保证后续视频生成的语音效果平稳连贯。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京的卢深视科技有限公司;合肥的卢深视科技有限公司，未经北京的卢深视科技有限公司;合肥的卢深视科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110774445.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于惯性传感器的肢体动作捕捉方法及康复评估系统
下一篇：一种便携式实时反馈语言学习系统

同类专利

专利分类

H 电学

H04 电通信技术
H04N 图像通信，如电视
H04N21-00 可选的内容分发，例如交互式电视，VOD〔视频点播〕
H04N21-20 .专门适用于内容分发的专用服务器，例如：VOD服务器；其操作
H04N21-40 .专门适用于接收内容或者与内容交互的客户端设备，如STB[机顶盒]；相关操作
H04N21-60 .用于在服务器和客户端之间或者在远程客户端之间的视频分配的网络结构或者处理
H04N21-80 .通过内容产生器独立于分配过程实现的内容或附加数据的生成或处理；内容本身
H04N21-81 ..其单媒体部件

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]视频生成方法、装置、电子设备及存储介质有效

专利文献下载