[发明专利]视频生成方法及装置在审
| 申请号: | 202310081878.1 | 申请日: | 2023-01-17 |
| 公开(公告)号: | CN116052711A | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 候学东;李梅;孙瑜博;吕达;李永源;陈云琳 | 申请(专利权)人: | 上海墨百意信息科技有限公司 |
| 主分类号: | G10L25/03 | 分类号: | G10L25/03;G06T13/20;G06T13/40;G06T15/04;G06T15/50;G10L25/18;G10L25/24;G10L25/30;G10L15/06 |
| 代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
| 地址: | 200232 上海市徐汇*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 生成 方法 装置 | ||
1.一种视频生成方法,其特征在于,所述方法包括:
获取包括语音的音频数据和对应的人脸图像;
根据人脸图像提取人脸身份参数,所述人脸身份参数用于表征人脸五官的形状特征;
根据所述音频数据提取说话人特征和语音特征,所述说话人特征用于表征说话人的语音风格;
将所述人脸身份参数、语音特征及说话人特征输入到运动预测模型确定人脸运动参数;
将人脸图像输入数据及人脸运动参数输入到渲染模型以确定合成人脸图像,其中,所述人脸图像输入数据为所述人脸图像或经过转换的人脸图像;
基于多帧所述合成人脸图像合成说话人视频。
2.根据权利要求1所述的方法,其特征在于,根据人脸图像提取人脸身份参数具体为:
通过预先训练人脸3D重建模型从所述人脸图像提取人脸身份参数、纹理信息以及光照姿态信息。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据图像到图像翻译模型优化人脸图像的纹理信息,确定所述人脸图像输入数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述音频数据提取说话人特征具体为:
获取多段音频数据并输入到预先训练的说话人识别模型中以提取说话人特征,提取的说话人特征为语音特征向量,包括说话人声门特性参数和声道特性参数。
5.根据权利要求1所述的方法,其特征在于,所述人脸身份参数包括人脸轮廓、额头形状、眼睛形状、鼻子形状及嘴部形状参数,所述人脸图像输入数据包括高频纹理信息、人脸身份参数及光照姿态信息,所述高频纹理信息包括毛发和斑点。
6.根据权利要求1所述的方法,其特征在于,将人脸图像输入数据及人脸运动参数输入到渲染模型以确定合成人脸图像包括:
将人脸图像输入数据及人脸运动参数输入到渲染模型以确定渲染后的人脸图像;以及
将所述渲染后的人脸图像与图片背景融合以确定合成人脸图像,所述图片背景为原始图片背景或特定图片背景。
7.一种视频生成装置,其特征在于,所述装置包括:
获取单元,被配置为获取包括语音的音频数据和对应的人脸图像;
第一提取单元,被配置为根据人脸图像提取人脸身份参数,所述人脸身份参数用于表征人脸五官的形状特征;
第二提取单元,被配置为根据所述音频数据提取说话人特征和语音特征,所述说话人特征用于表征说话人的语音风格;
人脸运动生成单元,被配置将所述人脸身份参数、语音特征及说话人特征输入到运动预测模型确定人脸运动参数;
图像生成单元,被配置为将人脸图像输入数据及人脸运动参数输入到渲染模型以确定合成人脸图像,其中,所述人脸图像输入数据为人脸图像本身或经过转换的人脸图像;
视频生成单元,被配置为基于多帧所述合成人脸图像合成说话人视频。
8.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海墨百意信息科技有限公司,未经上海墨百意信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310081878.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种侧面切换的手持花洒
- 下一篇:一种空间非合作目标的位姿解算方法及装置





