[发明专利]一种文字自动生成场景视频的方法及系统有效
申请号: | 202111538104.4 | 申请日: | 2021-12-16 |
公开(公告)号: | CN113934890B | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 马诗洁;王俊彦 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06N3/04;G06N3/08;H04N19/124 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
地址: | 311100 浙江省杭州市余*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文字 自动 生成 场景 视频 方法 系统 | ||
本发明涉及视频制作领域,尤其涉及一种自动文字生成场景视频的方法及系统,该系统包括:构图逻辑生成模块,用于根据输入的文本描述,生成构图的构图模板图像;图像内容生成模块,输入为构图逻辑生成模块生成的构图模板图像,输出为渲染后的实景图;图像动态化模块,将图像内容生成模块输出的实景图,变换为连续的多帧图像,生成动态视频。本发明基于自然语言预训练模型和计算机视觉技术,通过给定的语言输入自动生成短视频,而不需要第三方人工干预,大大提高了短视频制作的效率,同时生成的短视频具有真实性和多样性,保证了生成视频的质量和视频素材的新颖。
技术领域
本发明涉及视频制作领域,尤其涉及一种文字自动生成场景视频的方法及系统。
背景技术
随着互联网的发展,短视频应运而生。短视频作为一种新型的内容记录和媒体表达的方式,迅速占据了人们的生活。
在视频生产领域。传统的视频制作过程比较繁琐,需要搜索或者拍摄特定的素材进行视频创作。同时为了避免视频素材的重复性并保证视频的新颖性,需要对设计师进行不断的创作设计。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了,其具体技术发明如下:
一种文字自动生成场景视频的方法,包括以下步骤:
步骤一:通过矢量量化变分自动编码器VQ-VAE,将构图模板图像进行压缩和量化操作,生成图像编码向量和图像token;
步骤二:对输入的语言描述通过预训练神经网络语言模型进行编码,得到词向量和token;
步骤三:将步骤一中的图像编码向量展平后与步骤二中的词向量进行拼接后输入GPT模型中进行自回归训练,建立语言和构图模板图像直接的关系,建模关系后输入一句语言描述,生成对应的构图模板图像;
步骤四:基于风格迁移GAN网络将步骤三生成的语构图模板图像生成实景图;
步骤五:基于图像动态化GAN网络将步骤四生成的实景图生成后续的一系列图像帧,生成视频。
进一步的,所述步骤一,具体为:将构图模板图像送入训练好的矢量量化变分自动编码器VQ-VAE中,转换为离散隐性空间的序列,离散编码后为个维度为d的图像编码向量和图像编码token,。
进一步的,所述矢量量化变分自动编码器VQ-VAE主要分为三个模块,Encoder,codebook和Decoder模块,其中,Encoder模块对输入的构图模板图像进行编码,Decoder模块将构图模板图像进行解码,两者共用codebook模块,具体的,Encoder将图像编码成,中的向量根据它和coodbook向量之间的欧式距离进行量化,即通过最近邻查表的方法在codebook中找到最近的向量,将转化成距离它最近的离散编码e,即输出为个维度为d的图像编码向量及对应的token,,并将送入Decoder模块,解码生成构图模板图像。
进一步的,所述矢量量化变分自动编码器VQ-VAE的训练方式为:采用语义分割图像作为训练数据集,通过Adam随机梯度反向传播算法降低VQ-VAE训练损失函数值,得到模型最优参数。
进一步的,所述步骤二,具体为:对输入的语言描述通过预训练神经网络语言模型进行编码,生成k个词向量,,和k个词token,。
进一步的,所述步骤三,具体为包括以下步骤:
(3.1)将个图像编码向量展平,生成g个图像编码向量,其中,g为固定值,对g个图像编码向量加上position embedding;
(3.2)将k个词向量和g个图像编码向量进行拼接操作,将文本和图像也进行拼接操作,生成f=k+g个嵌入表示向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111538104.4/2.html,转载请声明来源钻瓜专利网。