[发明专利]一种基于教师学生网络的语音驱动说话人脸视频生成方法有效
申请号: | 202110811278.7 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113628635B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 熊盛武;陈燚雷;曾瑞;林承德;马宜祯 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L21/18;G10L25/24;G10L25/30;G10L25/57;G06V20/40;G06V40/16;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 教师 学生 网络 语音 驱动 说话 视频 生成 方法 | ||
1.一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于,包括如下步骤:
步骤1,获取大量的说话人脸视频数据集;
步骤2,从步骤1获取的数据集中提取视频帧和语音信号;
步骤3,提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,提取步骤2语音信号的MFCC特征;
步骤4,检测步骤3剪裁好的正脸照片I1中的人脸特征点;
步骤5,构建并训练教师网络;
步骤5.1,整个网络采取自监督学习的方式,分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3;
步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化的区域范围m和变化区域内像素值的变化信息c,动态特征m和c的计算方式如下:
(m,c)=fD(z4) (1)
步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I′1:
I′1=m×c+(1-m)×I1 (2)
步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练;
训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束,其中生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I′1,并计算生成器的损失函数lloss:
lloss=lrec+lreg+lgen (3)
lrec=||I1-I′1||1 (4)
lreg=||m||1 (5)
lgen=-DI([I′1,m]) (6)
式中,lrec为重建损失,lreg为稀疏正则化损失,lgen为对抗损失,DI(·)表示判别器,|| ||1表示L1范数;
判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数计算方式为:
式中,表示求导,DI(·)表示判别器,|| ||表示L2范数,λ=10,lgp表示Lipschitz惩罚系数,为了解决梯度爆炸;
步骤6,构建并训练学生网络;
步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号;
步骤6.2,使用步骤5训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c;
步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6);
步骤6.4,使用解码器预测运动信息(ms,cs),
步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I′1s:
I1s′=ms×cs+(1-ms)×I1 (9)
步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练;
训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束,其中生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,并计算生成器的损失函数l′loss:
l′loss=l′rec+l′reg+l′gen+lmot (10)
l′rec=||I1-I1s′||1 (11)
l′reg=||m||1 (12)
l′gen=-DI([I1s′,m]) (13)
lmot=||ms-m||1+||cs-c||1 (14)
式中,l′rec为重建损失,l′reg为稀疏正则化损失,l′gen为对抗损失,lmot为监督运动信息损失,DI(·)表示判别器,|| ||1表示L1范数;
判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数为:
式中,表示求导,DI(·)表示判别器,|| ||表示L2范数,λ=10,l′gp表示Lipschitz惩罚系数,为了解决梯度爆炸;
步骤7,级联学生网络训练;
步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。
2.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤7中级联学生网络训练包括以下几个步骤:
步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};
步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将隐变量z与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};
步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},然后再将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110811278.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双流道水药一体化多功能喷头及方法
- 下一篇:一种嵌入式串口测试方法及装置