[发明专利]一种模拟虚拟人物说话的方法及装置在审
申请号: | 202210050718.6 | 申请日: | 2022-01-17 |
公开(公告)号: | CN114359450A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 余国军;耿俊怀 | 申请(专利权)人: | 小哆智能科技(北京)有限公司 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G10L15/00;G10L15/02;G10L15/08 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 朱芳 |
地址: | 100089 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模拟 虚拟 人物 说话 方法 装置 | ||
1.一种模拟虚拟人物说话的方法,其特征在于,所述方法包括:
根据多个音素分类,制作与每个所述音素分类对应的口型,得到多个基础口型;
输入音频流,提取所述音频流的音频帧,识别所述音频帧的音素;
从所述多个音素分类中,确定与所述音频帧的音素对应的所述音素分类,选择与之对应的所述基础口型;
将选择的所述基础口型合成所述音频帧的对应口型。
2.根据权利要求1所述的方法,其特征在于,所述多个音素分类包括:
(p,b,m)、(f,v)、(th)、(t,d)、(k,g)、(tS,dZ,S)、(s,z)、(n,l)、(r)、(A)、(e)、(ih)、(oh)、(ou)。
3.根据权利要求1所述的方法,其特征在于,
在所述音频流中,提取2.5ms至60ms为单位的数据量为一帧音频。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
制作虚拟人物模型,根据所述音频帧的对应口型,生成所述虚拟人物的口型。
5.根据权利要求1所述的方法,其特征在于,
所述多个基础口型还包括:嘴闭合口型和通用口型。
6.根据权利要求5所述的方法,其特征在于,
当从所述音频帧中识别的音素不在所述多个音素分类中时,选择所述通用口型作为基础口型;
当从所述音频帧中未识别出音素时,选择所述嘴闭合口型作为基础口型。
7.一种模拟虚拟人物说话的装置,其特征在于,所述装置包括:
基础口型生成单元(102),用于根据多个音素分类,制作与每个所述音素分类对应的口型,得到多个基础口型;
音素提取单元(104),用于输入音频流,提取所述音频流的音频帧,识别所述音频帧的音素;
基础口型确定单元(106),用于从所述多个音素分类中,确定与所述音频帧的音素对应的所述音素分类,选择与之对应的所述基础口型;
口型合成单元(108),用于将选择的所述基础口型合成所述音频帧的对应口型。
8.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-6中任一项所述的方法。
9.一种计算设备,其特征在于,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于小哆智能科技(北京)有限公司,未经小哆智能科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210050718.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种NK细胞保护运输液
- 下一篇:基于深度学习的视频行为识别安防系统