[发明专利]一种基于教师学生网络的语音驱动说话人脸视频生成方法有效
申请号: | 202110811278.7 | 申请日: | 2021-07-19 |
公开(公告)号: | CN113628635B | 公开(公告)日: | 2023-09-15 |
发明(设计)人: | 熊盛武;陈燚雷;曾瑞;林承德;马宜祯 | 申请(专利权)人: | 武汉理工大学 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L21/18;G10L25/24;G10L25/30;G10L25/57;G06V20/40;G06V40/16;G06V10/774;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430070 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 教师 学生 网络 语音 驱动 说话 视频 生成 方法 | ||
本发明涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。相比于传统的任意说话人脸视频生成技术,本发明首次挖掘视频信号中的动态信息,在人脸生成、图片清晰度和生成说话人脸的视频唇形的准确度上有较大的提升。
技术领域
本发明涉及多媒体领域和人工智能领域,特别是涉及一种基于教师学生网络的语音驱动说话人脸视频生成方法。
背景技术
任意说话人脸视频生成技术是指输入任意一个人的一张正脸照片和其一段说话语音,然后生成该人正脸说话的视频,且生成的视频有准确的唇动和表情变化。由单张人脸图片和说话语音生成自然流畅的说话人脸视频十分具有挑战性,其需要生成保留身份特征的多帧人脸,而且要求人脸变化尤其是唇形变化在时域上要与输入的语音一致。说话人脸视频生成技术在虚拟主播、智能家居、游戏电影人物制作等领域具有十分广阔的应用前景和潜力。
说话人脸生成任务最早可以追溯到上个世纪九十年代,当时是使用稀疏网格建模人脸,然后使用语音信号驱动人脸网格运动。20世纪初,麻省理工的EZZAT提出“make ittalk”的方案,通过收集单人一定数量的说话人脸视频形成单人视频库,然后将文本信号转换成音素信号,再将音素信号在单人视频库中搜索最合适的视素,最后使用光流计算这些视素的中间帧来生成视频。近年来,随着计算机计算能力的增长、大规模数据集的构建以及深度学习的兴起,2016年VGG组的Joon Son Chung在其论文《you said that?》中首次实现了使用编解码学习结构在大规模数据集LRW上训练,只使用单张人脸照片和说话音频就可以生成单张人脸说话视频。随后的技术都是使用视频帧作为真值来对网络进行自监督学习,但是这些方法都没有充分挖掘视频信息的动态信息。
发明内容
本发明针对现有技术的不足,在深度学习自编码器生成模型的基础上,融入生成对抗网络和知识蒸馏在图像生成方面的优良特性,提出了一种基于教师学生网络的语音驱动说话人脸视频生成方法。首先利用教师网络压缩出视频数据中的动态信息,接着利用学生网络学习语音到动态信息的预测,然后使用预训练好的教师网络提取的人脸动态信息作为监督,结合人脸身份信息实现语音驱动人脸的说话任务。
为了达到上述目的,本发明提供的技术方案是一种基于教师学生网络的语音驱动说话人脸视频生成方法,包括以下步骤:
步骤1,获取大量的说话人脸视频数据集;
步骤2,使用ffmpeg工具从步骤1获取的数据集中提取视频帧和语音数据;
步骤3,使用dlib库提供的人脸检测工具提取步骤2视频帧中的人脸照片,并将其转换成正脸照片,然后剪裁成N×N尺寸的正脸照片I1,使用语音处理工具库python_speech_features提取步骤2语音信号的MFCC特征;
步骤4,使用face_alignment提供的人脸对齐工具,检测步骤3剪裁好的正脸照片I1中的人脸特征点;
步骤5,构建并训练教师网络;
步骤6,构建并训练学生网络;
步骤7,级联学生网络训练;
步骤8,将步骤3提取的MFCC特征序列和任意人脸照片I输入到步骤7训练好的级联学生网络中,即可得到对应的图片序列,然后使用ffmpeg将图片序列合成视频。
而且,所述步骤5中构建并训练教师网络包括以下几个步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工大学,未经武汉理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110811278.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双流道水药一体化多功能喷头及方法
- 下一篇:一种嵌入式串口测试方法及装置