[发明专利]一种语音同步驱动三维人脸口型与面部姿势动画的方法有效
申请号: | 201310080656.4 | 申请日: | 2013-03-12 |
公开(公告)号: | CN103218842A | 公开(公告)日: | 2013-07-24 |
发明(设计)人: | 侯进;米辉辉 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06T13/40 | 分类号: | G06T13/40;G06K9/62 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 张澎 |
地址: | 610031 四川省成都市*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 同步 驱动 三维 口型 面部 姿势 动画 方法 | ||
技术领域
本发明涉及语音驱动三维人脸动画合成技术领域,具体涉及一种基于KNN与HMM混合模型的语音可视化协同发音建模。
背景技术
语音驱动三维人脸动画合成的研究是自然人机交互领域的重要内容。语音驱动三维人脸动画合成是对一个人的声音进行预处理,使之在虚拟的三维人脸头像上合成与语音对应的口型动画(lip animation)和面部表情(facial expressions)。目前,这方面的研究主要集中在合成同步、精确的口型动画,以及通过语音分析实现对面部表情的分类上,还没有一个较好的方法来实现语音同时驱动虚拟人的口型动画和面部姿势(facial gestures or visual prosody)。所谓面部姿势是指头部动作(head movements)、眼睛动作(eye movements)和眉毛动作(eyebrow movements)等非语言信息。相对于口型动画与语音有明显的关联关系,面部姿势跟语音的关联关系比较微弱,因此获得比较准确的面部姿势比较困难,这就使得语音驱动虚拟人的表情木讷、呆滞,没有较为丰富的信息反馈,从而降低了人机交互的可理解性和认知度。这是语音驱动三维人脸动画领域必须解决的瓶颈。
为了实现语音同步驱动人脸口型和面部姿势,语音可视化建模是必不可少的一步。语音可视化建模是语言信息与合成人脸的接口,是驱动人脸产生语音动画的核心结构。语音可视化模型通过分析语音信息,建立音素到视素的映射,将音素信息转换成视素信息,将语音学上的协同发音体现到视觉效果上。如何建立语音与口型、语音与面部姿势的映射关系,如何通过一个简单而完全自动化的方法来获得协同发音模型参数,使得虚拟说话人动画的生成完全自动化,并且具有一定的真实感,是我们的研究内容。现如今,绝大多数研究学者仅仅是关注语音驱动三维人脸口型动画,而将语音驱动人脸面部姿势忽略了,这就使生成的虚拟人的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。所以,仅仅关注语音与三维人脸口型之间的关系,是不能充分反映人脸最真实的状况。
中国专利CN101751695A(申请号:200910263558.8)公开了一种基于BP神经网络的语音驱动唇形动画的方法。其特征在于,包括以下步骤:将汉语中的音节结构采用Consonant-Vowel分类;采集若干个人的原始音频数据和视频数据;获取对应唇形信息;获取语音特征数据;对获取的唇形信息和语音特征数据进行训练和建模,依据训练的模型实时输入语音合成的唇形运动序列。该方法的可操作性不强,要求在训练样本比较充分的情况下,才有可能得到较好的判定效果,否则对于形变、尺度改变、光照改变等干扰,就不能很好地判定。并且神经网络方法存在合成动画不够连续,跳变现象较多、口型特征预测不准确、且动画流畅度和自然度欠佳的不足。
中国专利CN101930619A(申请号:201010263097.7)发明了一种基于协同过滤算法的实时语音驱动人脸唇部动画系统,通过输入实时录入的语音,使得任务头部模型做出与输入语音同步的唇部动画。系统包含有音视频编码模块,该模块对采集到的语音和人脸三维特征点运动分别进行Mel频率倒谱参数编码和MPEG-4标准中的人脸动画参数编码,由音视频编码模块得到的Mel频率倒谱参数和人脸动画参数多模态同步库;协同过滤模块使用协同过滤算法,由新输入语音的Mel频率倒谱参数编码结合Mel频率倒谱参数和人脸动画参数多模态同步库求出与语音同步的人脸动画参数;动画模块由人脸动画参数驱动人脸模型进行动画。该系统在完成语音驱动人脸动画的同时,必须在动画生成之前录制好语音文件进行唇读,不能对任意提供的朗读文本合成语音动画,所以具有一定的局限性。并且该系统仅仅是关注语音驱动三维人脸口型动画,而将语音驱动人脸姿势忽略了,这就使生成的虚拟人的人脸木讷呆滞,没有任何表情信息的反馈,从而降低了人机交互的可理解性和可认知度。
迄今为止,还没有一个较为合理而高效的方法实现语音同步驱动三维人脸口型和面部姿势动画的合成。这是因为,虽然口型跟语音之间存在着明显的关联性,但面部姿势跟语音之间的关联关系比较微弱,因此语音驱动准确的面部姿势相对困难。采用什么方法去实现语音与口型、语音与面部姿势之间的同步关联问题,使语音可以同时驱动虚拟人唇部、眼睛、眉毛、头部等部位做出一整套相应的动作,这是本发明要解决的关键问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310080656.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种镀钯镀银的双镀层键合铜丝的制造方法
- 下一篇:按键测试装置及按键测试系统