[发明专利]视频生成方法及装置在审

申请号：	202310081878.1	申请日：	2023-01-17
公开（公告）号：	CN116052711A	公开（公告）日：	2023-05-02
发明（设计）人：	候学东;李梅;孙瑜博;吕达;李永源;陈云琳	申请（专利权）人：	上海墨百意信息科技有限公司
主分类号：	G10L25/03	分类号：	G10L25/03;G06T13/20;G06T13/40;G06T15/04;G06T15/50;G10L25/18;G10L25/24;G10L25/30;G10L15/06
代理公司：	北京睿派知识产权代理有限公司 11597	代理人：	刘锋
地址：	200232 上海市徐汇***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	视频生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种视频生成方法及装置，通过在渲染说话人人脸图像的过程中，加入对于表征人脸形状的人脸身份信息以及表征说话人语音风格的说话人特征，基于多维度的信息利用运动预测模型来生成人脸运动参数，进而基于生成的人脸运动参数合成说话人的人脸图像的帧，并基于多帧图像生成说话人视频。由此，使得生成的说话人视频能够体现出说话人的风格特点，同时提升了说话人人脸的真实感。

技术领域

本发明涉及计算机技术领域，具体涉及一种视频生成方法及装置。

背景技术

随着人工智能技术的发展，说话人(Speaker)生成展现出了广泛的应用前景。说话人生成是指由语音或视频驱动的人物虚拟说话视频生成，视频中的人物可能是真实存在的，也可以由模型生成。

现有的说话人视频生成技术不能很好的表示不同说话人的风格特点。同时，脸部的运动受到了人脸形状的影响，例如嘴部的运动应该与嘴部的形状有关，现有的技术无法表达人脸形状对运动状态的影响。另一方面，当前的渲染算法得到的人脸真实感较差，需要采集特定模特的视频进行训练，这增加了说话人生成的成本，限制了说话人生成技术的广泛应用。

发明内容

有鉴于此,本发明实施例提供了一种视频生成方法及装置，以体现出说话人的风格特点并提升说话人人脸的真实感。

第一方面，本发明实施例提供一种视频生成方法，所述方法包括：

获取包括语音的音频数据和对应的人脸图像；

根据人脸图像提取人脸身份参数，所述人脸身份参数用于表征人脸五官的形状特征；

根据所述音频数据提取说话人特征和语音特征，所述说话人特征用于表征说话人的语音风格；

将所述人脸身份参数、语音特征及说话人特征输入到运动预测模型确定人脸运动参数；

将人脸图像输入数据及人脸运动参数输入到渲染模型以确定合成人脸图像，其中，所述人脸图像输入数据为所述人脸图像或经过转换的人脸图像；

基于多帧所述合成人脸图像合成说话人视频。

可选的，根据人脸图像提取人脸身份参数具体为：

通过预先训练人脸3D重建模型从所述人脸图像提取人脸身份参数、纹理信息以及光照姿态信息。

可选的，所述方法还包括：