[发明专利]一种视频生成方法、装置、电子设备及存储介质有效
申请号: | 202210068441.X | 申请日: | 2022-01-20 |
公开(公告)号: | CN114598926B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 王卫宁;朱欣鑫;刘静;孙铭真;刘佳伟 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | H04N21/4402 | 分类号: | H04N21/4402;G06F16/332;G06F40/30 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 刘亚平 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 生成 方法 装置 电子设备 存储 介质 | ||
本发明提供一种视频生成方法、装置、电子设备及存储介质,包括:对待推理文本进行预处理,得到待推理文本的文本标识序列;将待推理文本的文本标识序列输入训练好的神经网络视频生成模型,生成待推理文本对应的视频;训练好的神经网络视频生成模型是根据待推理文本真实样本的文本标识序列和待推理文本真实样本对应的视频真实样本的标识序列进行训练得到的,视频真实样本的标识序列包括第一视频帧的标识序列和第二视频帧的标识序列,第二视频帧的分辨率高于目标分辨率阈值,第一视频帧的分辨率小于第二视频帧的分辨率,第一视频帧为第二视频帧前一时刻的视频帧。本发明方法实现了生成与待推理文本语义相匹配的泛化性好且分辨率高的高质量视频。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种视频生成方法、装置、电子设备及存储介质。
背景技术
文本到视频生成是一项需要跨越多个领域,涉及多种模态信息的研究,该研究的任务旨在实现基于输入的文本,生成与该文本语义相匹配的高分辨率视频,这对人工智能研究具有重要意义。
目前,在文本到视频生成的现有技术中,常见的研究方法和框架多采用基于生成对抗网络(Generative Adversarial Networks,GANs)的混合框架,然而,基于GANs的模型对文本语义的理解能力较差,导致生成视频的泛化性能较差,分辨率较低。
因此,如何更好地实现文本到视频的生成已经成为业界亟待解决的问题。
发明内容
本发明提供一种视频生成方法、装置、电子设备及存储介质,用以更好地实现文本到视频的生成。
本发明实施例提供一种视频生成方法,包括:
对待推理文本进行预处理,得到所述待推理文本的文本标识序列;
将所述待推理文本的文本标识序列输入训练好的神经网络视频生成模型,生成所述待推理文本对应的视频;
其中,所述训练好的神经网络视频生成模型是根据待推理文本真实样本的文本标识序列和所述待推理文本真实样本对应的视频真实样本的标识序列进行训练得到的,所述视频真实样本的标识序列包括第一视频帧的标识序列和第二视频帧的标识序列,所述第二视频帧的分辨率高于目标分辨率阈值,所述第一视频帧的分辨率小于所述第二视频帧的分辨率,所述第一视频帧为所述第二视频帧前一时刻的视频帧。
根据本发明实施例提供的一种视频生成方法,所述将所述待推理文本的文本标识序列输入训练好的神经网络视频生成模型,生成所述待推理文本对应的视频,包括:
步骤201,将所述待推理文本的文本标识序列输入训练好的Transformer神经网络Decoder模型,生成所述待推理文本的文本标识序列对应的当前时刻的第二视频帧的标识序列;
步骤202,将所述当前时刻的第二视频帧的标识序列输入向量量化自编码器的解码器,得到当前时刻的第二视频帧,并将所述当前时刻的第二视频帧存储至预设输出队列;
步骤203,对所述当前时刻的第二视频帧进行下采样,得到下采样视频帧,并将所述下采样视频帧输入向量量化自编码器的编码器,得到所述下采样视频帧的标识序列;
步骤204,将所述下采样视频帧的标识序列和所述待推理文本的文本标识序列输入训练好的Transformer神经网络Decoder模型,生成下一时刻的第二视频帧的标识序列,并将所述下一时刻的第二视频帧的标识序列作为所述当前时刻的第二视频帧的标识序列;
重复步骤202至步骤204,直至所述预设输出队列中存储的第二视频帧的帧数达到预设帧数,根据所述预设输出队列中的各个第二视频帧,生成所述待推理文本对应的视频;
其中,所述训练好的神经网络视频生成模型包括所述训练好的Transformer神经网络Decoder模型及所述向量量化自编码器的编码器和解码器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210068441.X/2.html,转载请声明来源钻瓜专利网。