[发明专利]一种基于教师学生网络的语音驱动说话人脸视频生成方法有效

专利信息
申请号: 202110811278.7 申请日: 2021-07-19
公开(公告)号: CN113628635B 公开(公告)日: 2023-09-15
发明(设计)人: 熊盛武;陈燚雷;曾瑞;林承德;马宜祯 申请(专利权)人: 武汉理工大学
主分类号: G10L21/10 分类号: G10L21/10;G10L21/18;G10L25/24;G10L25/30;G10L25/57;G06V20/40;G06V40/16;G06V10/774;G06V10/82;G06N3/0464;G06N3/08
代理公司: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 王琪
地址: 430070 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 教师 学生 网络 语音 驱动 说话 视频 生成 方法
【权利要求书】:

1.一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于,包括如下步骤:

步骤1,获取大量的说话人脸视频数据集;

步骤2,从步骤1获取的数据集中提取视频帧和语音信号;

步骤3,提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,提取步骤2语音信号的MFCC特征;

步骤4,检测步骤3剪裁好的正脸照片I1中的人脸特征点;

步骤5,构建并训练教师网络;

步骤5.1,整个网络采取自监督学习的方式,分别对步骤4检测出的人脸特征点l1、l2和剪裁好的正脸照片I1使用三个编码器f1、f2、f3进行编码,生成隐变量z1、z2、z3

步骤5.2,令z4=concat((z2-z1),z3),用解码器fD对z4进行解码,得到表现剪裁好的正脸照片I1变化的区域范围m和变化区域内像素值的变化信息c,动态特征m和c的计算方式如下:

(m,c)=fD(z4)                 (1)

步骤5.3,利用步骤5.2计算得到的参数m和c,结合剪裁好的正脸照片I1,得到合成照片I′1

I′1=m×c+(1-m)×I1              (2)

步骤5.4,使用W-GAN-gp算法的网络架构对教师网络进行训练;

训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,教师网络训练结束,其中生成器训练阶段,给定预处理好的人脸特征点l1、l2和剪裁好的正脸照片I1,使用步骤5.1-5.3的计算流程,网络通过预测的运动信息m和c生成图片I′1,并计算生成器的损失函数lloss

lloss=lrec+lreg+lgen                       (3)

lrec=||I1-I′1||1                      (4)

lreg=||m||1                        (5)

lgen=-DI([I′1,m])                   (6)

式中,lrec为重建损失,lreg为稀疏正则化损失,lgen为对抗损失,DI(·)表示判别器,|| ||1表示L1范数;

判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数计算方式为:

式中,表示求导,DI(·)表示判别器,|| ||表示L2范数,λ=10,lgp表示Lipschitz惩罚系数,为了解决梯度爆炸;

步骤6,构建并训练学生网络;

步骤6.1,使用步骤3提取到的语音信号的MFCC特征,以视频帧的时间点为中心,加上一个10ms的时间窗提取MFCC信号;

步骤6.2,使用步骤5训练好的教师网络,输入人脸特征点l1、l2和剪裁好的正脸照片I1,得到变化区域m和变化区域内像素值的变化信息c;

步骤6.3,输入步骤6.1切割好的语音信号10ms的MFCC特征amfcc和一张剪裁好的正脸照片I1,分别使用语音编码器f4和身份信息编码器f5进行编码,生成隐变量z5和z6,然后令z7=concat(z5,z6);

步骤6.4,使用解码器预测运动信息(ms,cs),

步骤6.5,利用步骤6.4计算得到的参数ms和cs,结合剪裁好的正脸照片I1,得到合成照片I′1s

I1s′=ms×cs+(1-ms)×I1             (9)

步骤6.6,使用W-GAN-gp算法的网络架构对学生网络进行训练;

训练包括生成器训练阶段和判别器训练阶段,生成阶段和判别阶段交替训练直到算法收敛,学生网络训练结束,其中生成器训练阶段,给定MFCC特征amfcc和剪裁好的正脸照片I1,使用步骤6.2-6.5的计算流程,学生网络通过预测的运动信息ms和cs生成图片I′1s,并计算生成器的损失函数l′loss

l′loss=l′rec+l′reg+l′gen+lmot            (10)

l′rec=||I1-I1s′||1                  (11)

l′reg=||m||1                    (12)

l′gen=-DI([I1s′,m])                 (13)

lmot=||ms-m||1+||cs-c||1                (14)

式中,l′rec为重建损失,l′reg为稀疏正则化损失,l′gen为对抗损失,lmot为监督运动信息损失,DI(·)表示判别器,|| ||1表示L1范数;

判别器训练阶段,使用W-GAN-gp的判别器部分,判别器损失函数为:

式中,表示求导,DI(·)表示判别器,|| ||表示L2范数,λ=10,l′gp表示Lipschitz惩罚系数,为了解决梯度爆炸;

步骤7,级联学生网络训练;

步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。

2.如权利要求1所述的一种基于教师学生网络的语音驱动说话人脸视频生成方法,其特征在于:所述步骤7中级联学生网络训练包括以下几个步骤:

步骤7.1,将步骤3提取的MFCC特征序列{a1,a2,...an}依次通过步骤6.3中的语音编码器f4得到语音隐变量序列{a′1,a′2,...a′n};

步骤7.2,输入人脸身份照片I1,通过步骤6.3中的身份编码器f5得到身份隐变量z,通过广播机制将隐变量z与语音隐变量序列{a′1,a′2,...a′n}拼接得到隐变量序列{b1,b2,...bn};

步骤7.3,为了建模时序序列的时序性,将隐变量序列{b1,b2,...bn}输入LSTM网络得到包含时序信息的隐变量序列{b′1,b′2,...b′n},然后再将隐变量序列{b′1,b′2,...b′n}中的每一个隐变量分别按照步骤6.4-6.6进行训练,生成图片序列{I1a,I2a,...Ina}。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110811278.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top