[发明专利]视频生成方法及装置在审
| 申请号: | 202310081878.1 | 申请日: | 2023-01-17 |
| 公开(公告)号: | CN116052711A | 公开(公告)日: | 2023-05-02 |
| 发明(设计)人: | 候学东;李梅;孙瑜博;吕达;李永源;陈云琳 | 申请(专利权)人: | 上海墨百意信息科技有限公司 |
| 主分类号: | G10L25/03 | 分类号: | G10L25/03;G06T13/20;G06T13/40;G06T15/04;G06T15/50;G10L25/18;G10L25/24;G10L25/30;G10L15/06 |
| 代理公司: | 北京睿派知识产权代理有限公司 11597 | 代理人: | 刘锋 |
| 地址: | 200232 上海市徐汇*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 视频 生成 方法 装置 | ||
本发明实施例公开了一种视频生成方法及装置,通过在渲染说话人人脸图像的过程中,加入对于表征人脸形状的人脸身份信息以及表征说话人语音风格的说话人特征,基于多维度的信息利用运动预测模型来生成人脸运动参数,进而基于生成的人脸运动参数合成说话人的人脸图像的帧,并基于多帧图像生成说话人视频。由此,使得生成的说话人视频能够体现出说话人的风格特点,同时提升了说话人人脸的真实感。
技术领域
本发明涉及计算机技术领域,具体涉及一种视频生成方法及装置。
背景技术
随着人工智能技术的发展,说话人(Speaker)生成展现出了广泛的应用前景。说话人生成是指由语音或视频驱动的人物虚拟说话视频生成,视频中的人物可能是真实存在的,也可以由模型生成。
现有的说话人视频生成技术不能很好的表示不同说话人的风格特点。同时,脸部的运动受到了人脸形状的影响,例如嘴部的运动应该与嘴部的形状有关,现有的技术无法表达人脸形状对运动状态的影响。另一方面,当前的渲染算法得到的人脸真实感较差,需要采集特定模特的视频进行训练,这增加了说话人生成的成本,限制了说话人生成技术的广泛应用。
发明内容
有鉴于此,本发明实施例提供了一种视频生成方法及装置,以体现出说话人的风格特点并提升说话人人脸的真实感。
第一方面,本发明实施例提供一种视频生成方法,所述方法包括:
获取包括语音的音频数据和对应的人脸图像;
根据人脸图像提取人脸身份参数,所述人脸身份参数用于表征人脸五官的形状特征;
根据所述音频数据提取说话人特征和语音特征,所述说话人特征用于表征说话人的语音风格;
将所述人脸身份参数、语音特征及说话人特征输入到运动预测模型确定人脸运动参数;
将人脸图像输入数据及人脸运动参数输入到渲染模型以确定合成人脸图像,其中,所述人脸图像输入数据为所述人脸图像或经过转换的人脸图像;
基于多帧所述合成人脸图像合成说话人视频。
可选的,根据人脸图像提取人脸身份参数具体为:
通过预先训练人脸3D重建模型从所述人脸图像提取人脸身份参数、纹理信息以及光照姿态信息。
可选的,所述方法还包括:
根据图像到图像翻译模型优化人脸图像的纹理信息,确定所述人脸图像输入数据。
可选地,所述根据所述音频数据提取说话人特征具体为:
获取多段音频数据并输入到预先训练的说话人识别模型中以提取说话人特征,提取的说话人特征为语音特征向量,包括说话人声门特性参数和声道特性参数。
可选的,所述人脸身份参数包括人脸轮廓、额头形状、眼睛形状、鼻子形状及嘴部形状参数,所述人脸图像输入数据包括高频纹理信息、人脸身份参数及光照姿态信息,所述高频纹理信息包括毛发和斑点。
可选的,将人脸图像输入数据及人脸运动参数输入到渲染模型以确定合成人脸图像包括:
将人脸图像输入数据及人脸运动参数输入到渲染模型以确定渲染后的人脸图像;以及
将所述渲染后的人脸图像与图片背景融合以确定合成人脸图像,所述图片背景为原始图片背景或特定图片背景。
第二方面,本发明实施例提供一种视频生成装置,所述装置包括:
获取单元,被配置为获取包括语音的音频数据和对应的人脸图像;
第一提取单元,被配置为根据人脸图像提取人脸身份参数,所述人脸身份参数用于表征人脸五官的形状特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海墨百意信息科技有限公司,未经上海墨百意信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310081878.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种侧面切换的手持花洒
- 下一篇:一种空间非合作目标的位姿解算方法及装置





