[发明专利]一种虚拟人物语音与口型同步的建模与控制方法有效
申请号: | 201810199537.3 | 申请日: | 2018-03-12 |
公开(公告)号: | CN108447474B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 朱风云;陈博;张志平;庞在虎 | 申请(专利权)人: | 北京灵伴未来科技有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/25;G10L13/02;G10L13/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 虚拟 人物 语音 口型 同步 建模 控制 方法 | ||
本发明属于语音合成领域的虚拟人物姿态控制,具体涉及一种虚拟人物语音与口型同步的建模与控制方法。目的是减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作。该方法包括:产生待同步语音对应的音素序列;将音素序列转换为音素类别序列;将音素类别序列转换为静态口型配置序列;通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置;将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。该方法可以不依赖于口型动画数据,并利用语音学先验知识和动态模型实现高效自然的虚拟人物口型同步控制。
技术领域
本发明属于语音合成领域的虚拟人物姿态控制,具体涉及一种虚拟人物语音与口型同步的建模与控制方法。
背景技术
虚拟人物建模与渲染技术在动画、游戏和电影等行业得到广泛应用,并且使虚拟人物讲话时能够具有自然流畅并与声音同步的口型动作是提升用户体验的关键。
目前,给虚拟人物对口型是一项非常消耗时间和人力的工作,设计师需要根据音频的内容在时间轴上调整口型配置。一些基于机器学习的方法可以从大量口型动画中学习得到模型,并利用模型为其他输入语音产生口型。但这类方法依赖大量的口型动画作为训练数据,严重依赖数据量和标注工作。
因此,如何减少口型动画数据标注量,并获得准确、自然流畅并与声音同步的口型动作是目前亟需解决的问题。
发明内容
本发明提供一种虚拟人物语音与口型同步的建模与控制方法,无需口型动画数据标注量,并能够获得准确、自然流畅并与声音同步的口型动作。
一种口型建模方法,包括如下方法:
步骤一、将语音音素划分为不同的音素类别;
步骤二、为每个音素类别定义一个静态发音姿态;
步骤三、为每个静态发音姿态建立相应的虚拟人物渲染系统的一组静态口型配置。
如上所述的口型建模方法,其中:步骤一中,所述语音音素分为元音音素和辅音音素;对于元音音素,根据开口度和唇形将元音音素划分为多个元音音素类别;对于辅音音素,根据发音部位将辅音音素划分为多个辅音音素类别。
如上所述的口型建模方法,其中:步骤二中,所述静态发音姿态指该类别的音素在理想情况下,即发音完整的静态状态下的发音姿态。
如上所述的口型建模方法,其中:步骤三中,所述静态口型配置指虚拟人物渲染系统所定义的口型配置,形式为一个关键帧或一组口型关键点参数。
一种虚拟人物语音与口型同步的控制方法,包括如下步骤:
步骤一、产生待同步语音对应的音素序列,所述音素序列为排布在时间轴上的音素序列;
步骤二、将音素序列转换为音素类别序列;
步骤三,将音素类别序列转换为静态口型配置序列。
步骤四,通过动态模型将在时间轴上排布的静态口型配置序列转换为动态变化的口型配置。
步骤五,将动态变化的口型配置渲染成虚拟人物头颈部的姿态形象,同步配合语音信号进行展示。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述步骤四包括:
步骤4.1,将时间轴的单位转换为帧;
步骤4.2,利用动态模型计算出动态变化的口型配置。
如上所述的一种虚拟人物语音与口型同步的控制方法,其中:所述音素类别至少分为元音音素类别和辅音音素类别,所述元音音素根据开口度和唇形划分为若干类别,所述辅音音素根据发音部位划分为若干类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京灵伴未来科技有限公司,未经北京灵伴未来科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810199537.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音翻译方法和装置
- 下一篇:一种基于电力调度系统的语音识别模型的建立方法