[发明专利]一种融合情感编码的音频驱动人脸动画生成方法及系统有效
| 申请号: | 202110934743.6 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113378806B | 公开(公告)日: | 2021-12-14 |
| 发明(设计)人: | 李太豪;刘逸颖;郑书凯;刘昱龙;马诗洁;阮玉平 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T13/40;G06N3/04;G06N3/08;G10L15/02;G10L15/06;G10L15/16;G10L25/30;G10L25/63 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
| 地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 情感 编码 音频 驱动 动画 生成 方法 系统 | ||
1.一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,包括以下步骤:
步骤1,采集音频信号,对音频信号进行预处理,提取MFCC特征;
步骤2,将MFCC特征输入语音识别模块,进一步提取音频特征;
步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one-hot编码;
步骤4,将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接,输入表情识别模块,得到基于3DMM模型的表情系数;
所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据,其中,所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one-hot进行编码;所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致;
所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:
其中,为距离损失,为时间连续性损失,为权重,计算了3D模型的真实顶点位置和预测位置之间的均方误差:
,
计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:
,
式中,为真实3D人脸模型的顶点集, 为预测3D人脸模型的顶点集,N为顶点数,t表示当前帧,t-1表示上一时刻帧;
步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。
2.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤1具体为:设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,提取的MFCC特征的帧率为50fps。
3.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤2具体为:所述语音识别模块输入MFCC特征,输出为字符的非标准化概率,即对于n帧音频输入,该模块输出为一个大小为n×D的向量,D为字母表字符数加上空白标签的字符数。
4.如权利要求3所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤3具体为:所述得到的情感类别包括:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,进行one-hot编码具体表示为:中性-1000000,生气-0100000,厌恶-0010000,恐惧-0001000,高兴-0000100,伤心-0000010,惊讶-0000001,即语音情感识别模块的输出为大小是n×7的向量。
5.如权利要求4所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接后,得到的向量长度为n× (D+7)。
6.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述表情识别模块由两层LSTM和两个全连接层构成,即包含依次串联连接的第一LSTM层、第二LSTM层、第一全连接层和第二全连接层。
7.如权利要求1所述的一种融合情感编码的音频驱动人脸动画生成方法,其特征在于,所述步骤5具体为:将表情系数作为权重,与3DMM模型的表情PCA的分量相乘后,与人脸模板进行相加,得到的带表情的3D人脸动画模型,具体表达式为:
其中,为第t帧预测的人脸模型的顶点集,T为人脸模板的顶点集,n_param为表情系数的数量,为第t帧的第i个表情系数,为3DMM模型的表情PCA的第i个特征向量。
8.一种融合情感编码的音频驱动人脸动画生成系统,其特征在于,包括以下模块:
1)音频采集模块,采集音频信号;
2)音频预处理模块,对输入的原始音频信号提取MFCC特征;
3)语音识别模块,用于进一步从MFCC特征中提取音频广义特征;
4)语音情感识别模块,用于对语音进行情感分类,并得到情感的one-hot编码;
5)表情识别模块,对语音识别模块和语音情感识别模块的输出进行连接作为输入,预测基于3DMM的表情系数;所述表情识别模块的训练数据包含不同情感状态下的相同句子的音频数据及对应的3D人脸模型数据,其中,所述的情感状态包含:中性、生气、厌恶、恐惧、高兴、伤心、惊讶,并采用one-hot进行编码;所述的3D人脸模型数据可由3D扫描设备采集并绑定到3DMM模型的拓扑网格上,所有的人脸模型具有相同的顶点数,并且顶点之间具有相同的拓扑关系;或采用基于3DMM的人脸三维重建方法,通过输入的二维图像生成3D模型;采集的3D人脸模型数据的帧率与语音提取的特征的帧率保持一致;
所述表情识别模块的在训练过程中使用的损失函数包含距离损失和时间连续性损失,其表达式为:
其中,为距离损失,为时间连续性损失,为权重,计算了3D模型的真实顶点位置和预测位置之间的均方误差:
,
计算了3D模型的真实的前后帧之间的顶点位移与预测的前后帧之间顶点位移之间的均方误差:
,
式中,为真实3D人脸模型的顶点集, 为预测3D人脸模型的顶点集,N为顶点数,t表示当前帧,t-1表示上一时刻帧;
6)人脸动画生成模块,输入表情系数和人脸模板得到3D人脸动画;
7)动画显示模块,将3D人脸模型渲染为2D图像,并通过显示设备播放。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110934743.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于延时状态的目标数据处理系统
- 下一篇:一种体积流量计现场标定装置





