[发明专利]虚拟数字人动态嘴型的生成方法及相关设备在审
申请号: | 202210626179.6 | 申请日: | 2022-06-02 |
公开(公告)号: | CN114996516A | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 苏朋杨;蔡卓君;白新平 | 申请(专利权)人: | 上海积图科技有限公司 |
主分类号: | G06F16/783 | 分类号: | G06F16/783;G06F16/78;G10L15/18 |
代理公司: | 深圳市特讯知识产权代理事务所(普通合伙) 44653 | 代理人: | 吴汗 |
地址: | 200030 上海市浦东新区中国(上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 数字 动态 生成 方法 相关 设备 | ||
本发明提供了一种虚拟数字人动态嘴型的生成方法及相关设备,其中方法包括:提取虚拟数字人音视频中的音频;对音频进行语音识别获得拼音文档;将拼音文档和音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档;从嘴型数据库中获取音素文档中音素集对应的嘴型图片集;提取虚拟数字人音视频中的视频;基于音素集中各个音素在音素文档中对应的时间序列确定各个音素在视频中对应的视频帧;从嘴型图片集中获取各个音素对应的嘴型图片;对于每个嘴型图片,通过亮度追踪的方式识别出嘴型图片在视频帧上的嘴巴位置,根据嘴巴位置将所述嘴型图片贴到视频帧中。本发明的方法可以快速且准确的生成虚拟数字人动态嘴型,虚拟数字人更加生动有趣。
技术领域
本发明涉及虚拟图像生成技术领域,尤其涉及一种虚拟数字人动态嘴型的生成方法及相关设备。
背景技术
当前,AI合成虚拟人物视频是人工智能技术应用的全新领域,包括语音合成、语音识别、机器翻译、表情识别、人体动作识别、高清图像处理等多项先进技术,实现了定制化的虚拟人物解决方案。通过AI生成的虚拟人物可用于许多与人交互的场景,如新闻播报、课堂教育、养老陪护、人机交互等。在视频行业可以定制化的生成不同人物形象,使视频交互内容更加生动有趣。现有技术在制作虚拟数字人时,容易存在虚拟数字人的嘴型和语音不对应,以及虚拟数字人的嘴型和虚拟数字人身体不协调的技术问题,难以满足用户的需求。
因此,现有技术还有待于改进和发展。
发明内容
本发明的主要目的旨在提供一种生成的虚拟数字人嘴型快且准,且虚拟数字人嘴型和虚拟数字人身体更加协调的虚拟数字人嘴型生成方案。
本发明第一方面提供了一种虚拟数字人动态嘴型的生成方法,所述虚拟数字人动态嘴型的生成方法包括:
提取虚拟数字人音视频中的音频;
对所述音频进行语音识别获得拼音文档;
将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档;
从嘴型数据库中获取所述音素文档中音素集对应的嘴型图片集;
提取虚拟数字人音视频中的视频;
基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧;
从所述嘴型图片集中获取各个所述音素对应的嘴型图片;
对于每个所述嘴型图片,通过亮度追踪的方式识别出所述嘴型图片在所述视频帧上的嘴巴位置,根据所述嘴巴位置将所述嘴型图片贴到所述视频帧中。
在本发明第一方面一种可选的实施方式中,所述将所述拼音文档和所述音频进行音素和音频帧对齐处理,获得带有时间序列的音素文档包括:
将所述拼音文档中的各个拼音进行声母韵母拆分,获得各个所述拼音的音素;
读取所述音频,获得各个所述音素在所述音频对应的音频帧;
基于所述音频帧在所述音频中的时间戳获得各个所述音素的时间序列,所述时间序列包括所述音素的起始时间和所述音素的终止时间;
按照起始时间、终止时间、音素的书写顺序将各个所述音素以及各个所述音素对应的所述起始时间和所述终止时间写在所述音素文档中。
在本发明第一方面一种可选的实施方式中,所述基于所述音素集中各个音素在所述音素文档中对应的时间序列确定各个所述音素在所述视频中对应的视频帧包括:
对于每个所述音素,获取所述音素的所述起始时间和所述音素的所述终止时间;
获取所述视频的帧率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海积图科技有限公司,未经上海积图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210626179.6/2.html,转载请声明来源钻瓜专利网。