[发明专利]视频生成方法、装置、电子设备以及存储介质在审
申请号: | 202111559969.9 | 申请日: | 2021-12-20 |
公开(公告)号: | CN114254157A | 公开(公告)日: | 2022-03-29 |
发明(设计)人: | 牛国超;张蕊莉;张稳龙;杜军朝;王鸿冰 | 申请(专利权)人: | 易谷网络科技股份有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F40/289;G06T11/60 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 李彩玲 |
地址: | 201803 上海市嘉定区江*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 生成 方法 装置 电子设备 以及 存储 介质 | ||
本发明实施例公开了一种视频生成方法、装置、电子设备以及存储介质。该方法包括:获取用户的输入信息,并确定所述输入信息对应的待输出信息;对所述待输出信息进行分词处理,得到所述待输出信息的分词结果,并基于预设的口型数据库,确定所述分词结果中各分词短语分别对应的口型图像帧;对于任一分词短语,获取所述分词短语对应的人脸图像帧,并将所述分词短语对应的口型图像帧与所述人脸图像帧进行图像融合,得到所述分词短语的融合图像帧;对所述分词结果中各分词短语分别对应的融合图像帧进行渲染,生成所述输入信息对应的待输出视频。通过本发明实施例公开的技术方案,实现了在降低成本的同时,提高数字人在交互过程中的流畅程度。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种视频生成方法、装置、电子设备以及存储介质。
背景技术
近年来,随着智能终端的普及和5G通信技术的发展,语音识别技术和语音合成技术在我国诸多行业具有广泛的应用,如:呼叫中心领域、地图导航领域、智能家居领域等等。智能自助语音交互,因为可以提供7*24小时自助服务,并能根据客户说出的需求,借助NLP进行智能的寒暄及业务查询办理等,一定程度上提升了客户体验。但是该种交互方案因为TTS的播报较为生硬,且在某些场景下没有可视化界面展现及服务形象,使得客户不能获得更加人性化、更加贴心的服务体验。
部分厂商开始尝试采用数字人方式来提升客户体验,数字人用声音和视频方式与客户交流,但是目前数字人交互需要很高的GPU支持,否则会使交互过程不流畅,降低数字人交互的客户体验。
发明内容
本发明提供一种视频生成方法、装置、电子设备以及存储介质,以实现在降低成本的同时,提高数字人在交互过程中的流畅程度。
第一方面,本发明实施例提供了一种视频生成方法,该方法包括:
获取用户的输入信息,并确定所述输入信息对应的待输出信息;
对所述待输出信息进行分词处理,得到所述待输出信息的分词结果,并基于预设的口型数据库,确定所述分词结果中各分词短语分别对应的口型图像帧;
对于任一分词短语,获取所述分词短语对应的人脸图像帧,并将所述分词短语对应的口型图像帧与所述人脸图像帧进行图像融合,得到所述分词短语的融合图像帧;
对所述分词结果中各分词短语分别对应的融合图像帧进行渲染,生成所述输入信息对应的待输出视频。
可选的,若所述输入信息包括文本输入信息;
相应的,所述确定所述输入信息对应的待输出信息,包括:
获取预设的信息交互数据库,并基于所述信息交互数据库确定所述文本输入信息对应的待输出信息。
可选的,若所述输入信息包括语音输入信息;
相应的,在获取预设的信息交互数据库之前,还包括:
将所述语音输入信息进行数据转换,得到所述语音输入信息对应的文本输入信息。
可选的,所述基于预设的口型数据库,确定所述分词结果中各分词短语分别对应的口型图像帧,包括:
对于任一分词短语,在所述口型数据库中读取所述分词短语对应的口型图像帧。
可选的,所述基于预设的口型数据库,确定所述分词结果中各分词短语分别对应的口型图像帧,还包括:
若在所述口型数据库中读取不到所述分词短语对应的口型图像帧,则确定所述分词短语的分词替代短语,并在所述口型数据库中读取所述分词替代短语对应的口型图像帧。
可选的,所述获取所述分词短语对应的人脸图像帧,包括:
确定所述分词短语对应的词情绪,并在预设的人脸数据库中确定与所述词情绪对应的人脸图像帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于易谷网络科技股份有限公司,未经易谷网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111559969.9/2.html,转载请声明来源钻瓜专利网。