[发明专利]视频生成方法和装置、存储介质和电子设备有效
申请号: | 202110298212.2 | 申请日: | 2021-03-19 |
公开(公告)号: | CN113079328B | 公开(公告)日: | 2023-03-28 |
发明(设计)人: | 顾宇;马泽君 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | H04N5/262 | 分类号: | H04N5/262;H04N5/265;G10L13/02;G10L15/02;G10L15/06;G10L25/03 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 曹寒梅 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 生成 方法 装置 存储 介质 电子设备 | ||
1.一种视频生成方法,其特征在于,所述方法包括:
将待处理文本分割为音素序列,将所述音素序列输入视频特征生成模型,得到所述视频特征生成模型输出的视频特征序列;
对所述视频特征序列中的各特征信息进行还原,得到对应的还原图像,根据所述视频特征序列的排序顺序将各还原图像进行排列,得到发音器官动作视频;
其中,所述视频特征生成模型是通过以下步骤训练得到的:
采集基于样本文本录制的样本发音器官动作视频和样本音频;
将样本文本进行分句,得到多个样本子句文本;
对所述样本音频进行识别,确定各样本子句文本对应的语音片段,基于各语音片段的时间轴信息,从所述样本发音器官动作视频中确定各语音片段对应的样本发音器官动作子视频;
逐帧对各所述样本发音器官动作子视频进行主成分分析,得到各视频帧的主成分信息,将主成分信息作为特征信息,将各视频帧的主成分信息按照视频帧顺序进行排列,得到样本视频特征序列;
基于样本子句文本的音素序列及其对应的样本视频特征序列,训练所述视频特征生成模型。
2.根据权利要求1所述的方法,其特征在于,在对所述视频特征生成模型进行训练的过程中,还包括:
逐帧对所述样本发音器官动作视频中的面部位置进行调整,以使各视频帧中的相同器官位于相同的图像位置。
3.根据权利要求1或2所述的方法,其特征在于,所述视频特征生成模型为注意力模型,所述视频特征生成模型包括编码器和解码器,所述编码器用于基于音素序列生成编码结果,所述解码器用于基于所述编码结果生成视频特征序列。
4.一种视频生成装置,其特征在于,所述装置包括:
输入模块,用于将待处理文本分割为音素序列,将所述音素序列输入视频特征生成模型,得到所述视频特征生成模型输出的视频特征序列;
生成模块,用于对所述视频特征序列中的各特征信息进行还原,得到对应的还原图像,根据所述视频特征序列的排序顺序将各还原图像进行排列,得到发音器官动作视频;
其中,所述视频特征生成模型是通过以下步骤训练得到的:
采集基于样本文本录制的样本发音器官动作视频和样本音频;
将样本文本进行分句,得到多个样本子句文本;
对所述样本音频进行识别,确定各样本子句文本对应的语音片段,基于各语音片段的时间轴信息,从所述样本发音器官动作视频中确定各语音片段对应的样本发音器官动作子视频;
逐帧对各所述样本发音器官动作子视频进行主成分分析,得到各视频帧的主成分信息,将主成分信息作为特征信息,将各视频帧的主成分信息按照视频帧顺序进行排列,得到样本视频特征序列;
基于样本子句文本的音素序列及其对应的样本视频特征序列,训练所述视频特征生成模型。
5.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-3中任一项所述方法的步骤。
6.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-3中任一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110298212.2/1.html,转载请声明来源钻瓜专利网。