[发明专利]一种实时的语音驱动人脸动画的方法有效
申请号: | 201310173929.X | 申请日: | 2013-05-10 |
公开(公告)号: | CN103279970A | 公开(公告)日: | 2013-09-04 |
发明(设计)人: | 汪增福;罗常伟;於俊 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06T13/40 | 分类号: | G06T13/40 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;顾炜 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 语音 驱动 动画 方法 | ||
技术领域
本发明涉及语音处理、图像处理、语音可视化、人脸动画技术领域,具体是一种能合成实时的语音驱动人脸动画的方法。
背景技术
人脸动画在多模态人机交互、电影制作、电脑游戏、视频会议、虚拟主持人等方面得到了越来越多的应用。基于视频驱动的人脸动画方法具有较好的合成效果,但这种方法要求合成动画时,必须在特定的场合使用特定的设备来捕捉人脸运动,耗时长,代价高,普通用户无法使用。基于文本驱动的人脸动画方法需要借助语音合成系统,目前合成的语音依然缺乏自然语音的韵律和情感。因此,使用真实的语音来驱动人脸动画,是当前研究的热点之一。现有的语音驱动人脸动画方法,大部分都采用隐马尔可夫模型(Hidden Markov Model)实现语音参数到视觉参数的转换,这个过程需要利用语音识别技术来获取语音信号对应的音素序列,合成的人脸动画严重依赖于语音识别的结果,同时也不能满足实时性的要求。
发明内容
本发明的目的在于:克服背景技术的不足,提供一种实时的语音驱动人脸动画的方法。
本发明采用的技术方案为:实时的语音驱动人脸动画的方法,主要步骤有:获取语音参数及其对应的视觉参数,构造训练数据集;语音参数转换为视觉参数的建模及模型的训练;构造人脸模型对应的一组blendshape;视觉参数到人脸动画参数的转换,具体步骤如下:
步骤1、获取语音参数和视觉参数,构造训练数据集;
让一名表演者朗读一组中文、英文或者其他任何语种的句子,在表演者脸部正前方其进行录音录像,录音录像完成后,再对声音文件和视频文件进行处理。通过跟踪视频中的人脸特征点,得到特征点的位置,每一帧的特征点组成一个形状向量s,对所有视频帧的形状向量进行主成份分析,可得参数b就是视觉参数,对音频文件中的语音数据提取美尔复倒谱系数MFCC,作为语音参数,最后根据时间相等的关系对视觉参数和语音参数进行匹配,通过上述处理即可获得语音参数和视觉参数的训练数据集;
步骤2、语音参数转换为视觉参数的建模及模型的训练;
使用高斯混合模型和马尔可夫模型相结合的方法建立语音参数与视觉参数之间的关系,不仅利用了当前的语音参数,也考虑了过去视觉特征对当前视觉特征的影响,由于在实际转换过程中,无法获取到过去视觉参数的真实值,因此该方法利用一个主转换和辅助转换相结合的框架,主转换是利用当前语音参数和过去视觉参数的状态估计当前的视觉参数,辅助转换是在不引起误差积累的前提下,利用过去的语音参数估计过去的视觉参数的状态,得到的过去的视觉参数的状态提供给主转换使用;
辅助转换能够采用高斯混合模型的方法或线性变换的方法或神经网络的方法中的任何一种,主转换利用高斯混合模型模拟马尔可夫模型的转移概率密度函数,高斯混合模型的训练方法是,利用基于最大似然估计的EM算法估计高斯混合模型的参数,再使用基于最小转换误差的训练方法对模型参数进行进一步的优化;具体过程是,将EM算法估计到的高斯混合模型的参数作为初始值,利用概率下降法不断更新模型参数;
步骤3、构造人脸模型对应的一组blendshape;
在所有的形状向量s中,自动选取M个关键形状向量,将其作为一组二维的关键形状向量基{s},这些向量基组成的矩阵为Q,以这些关键形状向量及其对应的人脸视频图像为依据,为人脸模型设计一组与关键形状向量相对应的blendshape;这些blendshape可以是二维的,也可以是三维的,如果要合成高真实感的三维人脸动画,则使用真实的人脸照片经过三维重建和纹理映射得到blendshape,如果要合成卡通人脸动画,能够调整每个blendshape使其具有卡通的特点;
步骤4、视觉参数到人脸动画参数的转换;
人脸动画参数用向量ω表示,对于一个形状向量s,能够表示为也能够近似为s=Q.ω,利用最小二乘法,能够由b计算得到ω,人脸动画参数ω对blendshape进行插值,即可得语音驱动的人脸动画,在此基础上,还能够指定人脸表情,通过将当前的人脸形状与指定的人脸表情进行插值,能够使人脸模型拥有相应的表情。
其中,利用高斯混合模型以及马尔可夫模型建立语音参数到视觉参数的映射关系,实现语音参数到视觉参数的直接转换,避免了对语音识别系统的依赖,同时采用基于最小转换误差的训练方法对模型进行训练,使转换结果更为精确。
其中,利用真实捕捉的语音参数和视觉参数,能够获得高真实感的语音驱动人脸动画。
其中,通过调整人脸模型的blendshape,能够合成具有动漫效果的人脸动画。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310173929.X/2.html,转载请声明来源钻瓜专利网。