[发明专利]一种模拟虚拟人物说话的方法及装置在审

申请号：	202210050718.6	申请日：	2022-01-17
公开（公告）号：	CN114359450A	公开（公告）日：	2022-04-15
发明（设计）人：	余国军;耿俊怀	申请（专利权）人：	小哆智能科技（北京）有限公司
主分类号：	G06T13/40	分类号：	G06T13/40;G10L15/00;G10L15/02;G10L15/08
代理公司：	北京知呱呱知识产权代理有限公司 11577	代理人：	朱芳
地址：	100089 北京市海淀区西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种模拟虚拟人物说话方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种模拟虚拟人物说话的方法及装置，方法包括以下步骤：根据多个音素分类，制作与每个音素分类对应的口型，得到多个基础口型；输入音频流，提取音频流的音频帧，识别音频帧的音素；从多个音素分类中，确定与音频帧的音素对应的音素分类，选择与之对应的基础口型；将选择的基础口型合成音频帧的对应口型。将真人口型通过音素分类，整理为14个基本口型，可以让计算机通过音素识别，驱动虚拟数字人口型同步。通过虚拟数字人口型专利，可以快速准确的实现虚拟数字人的语音口型同步。制定了口型标准化口型制作方案，极大的提高了虚拟数字人口型制作效率和口型的质量。让虚拟数字人更加接近于真人，极大的提升了用户的体验。

技术领域

本发明实施例涉及语言识别处理领域，具体涉及一种模拟虚拟人物说话的方法及装置。

背景技术

虚拟数字人口型当前市场主要有以下三种解决方案：

(1)固定虚拟数字人口型动画：不管虚拟角色说啥，口型都是固定的，做不到语音口型同步；

(2)音量驱动虚拟数字人口型动画：根据虚拟角色说话的音量大小，来控制虚拟角色的口型大小，非常不准确，做不到语音口型同步；

(3)真人图片序列帧动画：科大讯飞的虚拟数字人小晴使用的方案，通过识别语音调用图片序列帧动画来实现语音口型同步，该解决方案局限性大，需要拍摄大量的真人素材，很难应用于市场。

发明内容

为此，本发明实施例提供一种模拟虚拟人物说话的方法及装置，以解决现有技术中市面上的音量识别和固定口型，只适用于卡通角色，无法实现语音口型同步的问题。

为了实现上述目的，本发明的实施方式提供如下技术方案：

在本发明的实施方式的一个方面中，提供了一种模拟虚拟人物说话的方法，所述方法包括：

根据多个音素分类，制作与每个所述音素分类对应的口型，得到多个基础口型；