[发明专利]一种融合情感编码的音频驱动人脸动画生成方法及系统有效
| 申请号: | 202110934743.6 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113378806B | 公开(公告)日: | 2021-12-14 |
| 发明(设计)人: | 李太豪;刘逸颖;郑书凯;刘昱龙;马诗洁;阮玉平 | 申请(专利权)人: | 之江实验室 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06T13/40;G06N3/04;G06N3/08;G10L15/02;G10L15/06;G10L15/16;G10L25/30;G10L25/63 |
| 代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 孙孟辉 |
| 地址: | 310023 浙江省杭州市余*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 情感 编码 音频 驱动 动画 生成 方法 系统 | ||
本发明属于人工智能领域,涉及一种融合情感编码的音频驱动人脸动画生成方法及系统,该方法为:首先对采集的音频信号进行预处理,提取MFCC特征后输入语音识别模块,进一步提取音频特征,同时将MFCC特征输入语音情感识别模块,得到情感类别并进行one‑hot编码,然后将音频特征和情感的one‑hot编码向量进行连接,输入表情识别模块得到基于3DMM模型的表情系数,最后将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。本发明方法计算量小,训练稳定,流程简单,成本低廉,能够极大的降低电影制作周期和成本,且充分考虑了语音传达的情感状态,对在网络中输入了情感编码,使得生成的人脸动画更加生动形象,能够给用户带来更优质的体验。
技术领域
本发明属于人工智能领域,具体涉及一种融合情感编码的音频驱动人脸动画生成方法及系统。
背景技术
近年来,随着人工智能的不断发展,跨模态学习和建模技术在计算机视觉、计算机图形学和多媒体等跨学科研究中引起了越来越多的关注。视觉和听觉模式是人人或人机互动中的两个重要的感觉通道。音频和人脸动画之前存在着很强的关联性,即许多面部动作是直接由语言产生引起的。因此,理解言语和面部运动之间的相关性能够为分析人类行为提供额外的帮助。音频驱动人脸动画技术有着十分广泛的应用场景,如虚拟主播、角色扮演类游戏、三维动画制作等。
现有的音频驱动人脸动画生成方法大多未考虑说话者的情感状态,导致预测的人脸动画虽然能够实现较高质量的唇部区域运动,但是人脸表情趋于木讷、呆滞,降低了人机交互的可理解性和认知度。抑或有的方法需要联合视频来预测表情,这大大增加了算法的复杂度。
天津大学申请的专利“一种语音驱动的三维人脸动画生成方法及网络结构”,申请号:202010387250.0,通过该方法实现了一种与说话者无关的以3D几何图形为导向的语音驱动面部动画网络,并引入非线性几何图形表示法和来自不同视角的两个约束条件,使得生成的3D面部表情更加生动形象。然而该方法未考虑不同情绪下说话状态的人脸表情,这就使得生成的虚拟人的表情木讷、呆滞,从而降低了人机交互的可理解性和认知度。
上海交通大学的申请的专利“联合语气词特征的视音频驱动人脸动画实现方法及系统”,申请号:CN202011484986.6,该申请利用语气词增强训练网络学习识别语气词特征,学习语气词特征与面部表情AU参数在语境中的深层的映射关系,对语音输入信息进行语气词特征的提取,进行表情增强AU参数的预测。然而,一方面,语气词并不能完全反应说话人的真实情感状态,另一方面,如果语句中不包含语气词,则该方法无法判断情感状态。此外,该方法需同时从视频中提取AU参数并与音频预测的AU参数进行加权,因此算法的复杂度较高。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种融合情感编码的音频驱动人脸动画生成方法及系统,对输入语音准确预测对应唇形的同时,能够结合情感状态,得到包含丰富表情的人脸动画,其具体技术方案如下:
一种融合情感编码的音频驱动人脸动画生成方法,包括以下步骤:
步骤1,采集音频信号,对音频信号进行预处理,提取MFCC特征;
步骤2,将MFCC特征输入语音识别模块,进一步提取音频特征;
步骤3,将MFCC特征输入语音情感识别模块,得到情感类别,并进行one-hot编码;
步骤4,将步骤2得到的音频特征和步骤3得到的情感的one-hot编码向量进行连接,输入表情识别模块,得到基于3DMM模型的表情系数;
步骤5,将表情系数与人脸模板输入人脸动画生成模块,得到带表情的3D人脸动画。
进一步的,所述步骤1具体为:设置采样率为16000Hz, 滑窗大小为0.02s, 滑窗步长为0.02s,提取的MFCC特征的帧率为50fps。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110934743.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于延时状态的目标数据处理系统
- 下一篇:一种体积流量计现场标定装置





