[发明专利]语音唇形拟合方法、系统及存储介质有效
申请号: | 201911195998.4 | 申请日: | 2019-11-29 |
公开(公告)号: | CN110942502B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 黄以华;张睿 | 申请(专利权)人: | 中山大学 |
主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40;G10L15/16;G10L15/25 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 黄启文 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 拟合 方法 系统 存储 介质 | ||
本发明涉及一种语音唇形拟合方法,包括以下内容:采集目标人物视频数据集的图像数据和语音数据;提取所述图像数据中目标人物的唇形特征向量;提取所述语音数据中目标人物的语音特征向量;以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
技术领域
本发明涉及语音信号技术领域,更具体地,涉及一种语音唇形拟合方法、系统及存储介质。
背景技术
根据语音生成相应唇形的语音唇形拟合技术,是虚拟主播、虚拟形象机器人、动画角色嘴型设计等应用的基础技术之一。准确、流畅地根据语音拟合出唇形,是该项技术难点所在。
目前,基于语音拟合唇形在技术上主要通过以下两种方案实现:
1)根据音素理论和基本唇形理论,利用贝叶斯估计、隐马尔可夫模型、BP神经网络等进行唇形分类后,通过插值估计产生唇形序列的方法。
2)利用LSTM、RNN等循环神经网络进行序列到序列映射的唇形估计方法。
然而,以上两种方案在实际使用时,存在着以下问题:1)类技术方案理论较多、步骤繁琐、模型计算量大、唇形拟合准确率低;2)类技术方案并行度低、运算速度慢、唇形特征点标签采集精确度低、方案整体效率低。
发明内容
本发明为解决现有技术提供的语音唇形拟合方法存在的拟合准确率低的技术缺陷,提供了一种语音唇形拟合方法。
为实现以上发明目的,采用的技术方案是:
语音唇形拟合方法,包括以下内容:
采集目标人物视频数据集的图像数据和语音数据;
提取所述图像数据中目标人物的唇形特征向量;
提取所述语音数据中目标人物的语音特征向量;
以语音特征向量为输入,唇形特征向量为输出,训练多尺度融合卷积神经网络;
向多尺度融合卷积神经网络输入目标人物待拟合的语音特征向量,多尺度融合卷积神经网络生成拟合的唇形特征向量并进行输出,基于所述唇形特征向量对唇形进行拟合。
优选地,所述目标人物视频数据集的图像数据和语音数据同步及同帧率进行采集。
优选地,所述目标人物视频数据集通过三维结构光深度相机采集。
优选地,所述目标人物的唇形特征向量由采集的图像数据逐帧画面中嘴唇、下巴和脸颊部位的30维BlendShape系数向量组成。
优选地,所述提取语音数据中目标人物的语音特征向量的具体过程如下:
对采集的目标人物的语音数据逐帧进行梅尔频率倒谱系数的特征向量提取;
获取一个经过语音识别训练的深度神经网络,并去除掉最后的CTC分类损失层;
将提取的梅尔频率倒谱系数特征向量逐帧输入所述深度神经网络,深度神经网络输出语音数据经过二次提取后的特征向量,即为所需语音特征向量。
优选地,所述训练多尺度融合卷积神经网络的具体过程如下:
A、设采集的语音数据长度共为a帧,帧序号为从1到a,则按照[1:m][2:(m+1)]...[(a-m+1):a]的形式进行滑动帧序分组,将提取的语音特征向量构造成大小为m×n的二维矩阵形式;
B、将所述提取的唇形特征向量构造成大小为m×30的二维矩阵形式;
C、构造多尺度融合卷积神经网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911195998.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能物流运输推车
- 下一篇:基于概率分析的发光测试平台及方法