[发明专利]一种语音同步驱动三维人脸口型与面部姿势动画的方法有效
申请号: | 201310080656.4 | 申请日: | 2013-03-12 |
公开(公告)号: | CN103218842A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 侯进;米辉辉 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G06K9/62 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 张澎 |
地址: | 610031 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 同步 驱动 三维 口型 面部 姿势 动画 方法 | ||
1.一种语音同步驱动三维人脸口型与面部姿势动画的方法,通过对用户的声音进行预处理,使之在虚拟人的人脸头像上合成与语音同步的口型和面部姿势动画,包括以下主要步骤:
(1)视素归类,将部分声韵母根据它们所对应的口型进行视素归类,共分为16类,F0-F15;
(2)建立音频/视频语料库,用高清摄录机进行录制,由20个人,10男10女,读取步骤1中的已经分好类的声韵母,同时录制好音频和视频,在录制语音的时候,采集与语音同步的脸部视频信息;
(3)提取音频/视频帧特征参数,从步骤2录制得到的音频数据中提取出语音信号的音高、音强和和13维的Mel频率倒谱系数MFCC,同时,截取与语音同步的视频帧,提取视频帧中各声韵母所对应的基于MPEG-4定义的口型特征参数和面部姿势特征参数,然后计算各特征点坐标与标准帧坐标的差值Vel={V1,V2,...,Vn},再计算按MPEG-4定义的人脸上的对应尺度参考量P={P1,P2,...,Pn},通过公式(1),
Fapi=(Vi(x|y)/Pi(x|y))*1024 (1)
得到人脸运动参数;其中,Fapi表示与第i个特征点对应的人脸运动参数,Vi(x|y)表示的Vi的x或y坐标,Pi(x|y)表示与Vi(x|y)对应的尺度参考量;
(4)将步骤3中的语音信号的特征参数13—MFCC进行降维处理,利用PCA方法将语音信号的特征向量、口型帧的特征向量进行降维处理,将语音信号中13—MFCC降低为4维向量,将口型特征参数降为4维向量;
(5)运用k-means算法将步骤4中的语音特征参数和口型特征参数进行聚类分析;
(6)运用KNN分类器将步骤5中的语音信号的特征参数与口型特征参数进行训练和识别;
(7)对于新输入的语音信号s,根据K-nearest neighbour准则求取相似度;通过求其相似度,然后选出相似度最大的前k个向量,这k个向量属于哪个类别的口型最多,则这个类别的口型就是与语音信号相匹配的口型;
(8)将面部姿势分为六种类型:眨眼和凝视、扬眉和皱眉、点头和摇头,通过脸部部位的各种动作组合来表达不同的人脸面部信息;
(9)用HMM对面部姿势进行建模,将提取的语音信号的音高和音强, 与人脸六种基本面部姿势进行训练和识别;
(10)训练阶段:首先,从录制的语料库中选取部分语料,使所选语料能够覆盖所有面部姿势类型且保证一定的出现概率;提取出语音信号的特征参数和面部姿势的特征参数,接着把语音特征参数作为观察值序列,通过Baum-Welch重估算法训练各相应的HMM,然后用Viterbi算法搜索并记录下语音特征参数所对应的最优状态序列;用HMM建模将面部姿势六种类型的特征参数与语音特征参数所对应的最优状态序列建立对应关系;
(11)识别阶段:对新输入的语音信号进行特征提取,分析其音高和音强,然后根据训练好的HMM,将新的语音特征参数作为HMM的观察值序列,通过Veterbi算法搜索并获取最优状态序列;计算新输入语音信号与训练库中的图像观察值序列中的各个人脸面部姿势的相似或然率P(O|M);找出最大相似或然率,对应的HMM即为与新输入的语音信号相匹配的人脸面部姿势;
(12)依据以上步骤得到与语音信号相对应的人脸面部姿势和口型帧序列参数,经过平滑处理后,使用Xface开源软件合成最终的人脸动画。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310080656.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种镀钯镀银的双镀层键合铜丝的制造方法
- 下一篇:按键测试装置及按键测试系统