[发明专利]一种将语音转换成唇形的方法、系统、装置和存储介质有效
申请号: | 202010079894.3 | 申请日: | 2020-02-04 |
公开(公告)号: | CN111370020B | 公开(公告)日: | 2023-02-14 |
发明(设计)人: | 黄桂芳;王伦基;叶俊杰;李权;任勇;韩蓝青 | 申请(专利权)人: | 清华珠三角研究院;赛业(广州)生物科技有限公司 |
主分类号: | G10L21/10 | 分类号: | G10L21/10;G10L25/24;G10L25/30;G10L19/02;G10L19/26;G06V40/20;G06V10/77;G06T13/20;G06T13/40 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 何文聪 |
地址: | 510530 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 转换 成唇形 方法 系统 装置 存储 介质 | ||
本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质,所述方法包括:获取语音序列;利用训练好的生成对抗网络模型接收所述语音序列并进行处理;获取所述训练好的生成对抗网络模型输出的唇形图像。本发明通过训练生成对抗网络模型(GAN),并利用训练好的生成对抗网络模型将语音转换唇形,能够得到高质量、高分辨率的唇形图像;生成对抗网络模型采用的是一种无监督的学习方式训练,能够明显改善语音质量,减少语音失真,增强系统的鲁棒性;当持续输入变化的语音时,最终能够输出动态的唇形图像,能够提供流畅的视觉效果;同时,将生成的唇形图像与语音结合,能够合成高质量的人脸说话视频。本发明广泛应用于语音数据技术领域。
技术领域
本发明涉及语音数据技术领域,尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。
背景技术
落经过近些年的探索和发展,计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值,而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果,许多电影特效也是不可能实现的。目前,网络上就已经存在着大量的人工合成视频。此外,语音识别与文本合成语音技术也已广泛应用于聊天机器人中,但是,现有技术普遍存在着计算量庞大、消耗时间多等缺点,多数研究基于音频的说话人脸视频生成问题都是基于图形学的方法,但是这类方法通常需要对特定的目标对象的大量视频进行训练和建模;现有的基于深度学习的方法使用Image-to-Image的方式,通过单张图像生成整个人脸说话的视频,这种方式已经足以得到很好的与提供的语音匹配的唇形,但是生成图像的质量却大打折扣,生成的结果不但分辨率不高,甚至可能出现人物的面部特征丢失或是出现色差等问题。
发明内容
针对上述至少一个技术问题,本发明的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。
本发明所采取的技术方案是:一方面,本发明实施例包括一种将语音转换成唇形的方法,包括:
获取语音序列;
利用训练好的生成对抗网络模型接收所述语音序列并进行处理;
获取所述训练好的生成对抗网络模型输出的唇形图像。
进一步地,所述将语音转换成唇形的方法还包括对生成对抗网络模型进行训练,包括:
构建训练集;所述训练集由语音样本和唇形关键点样本组成;
获取所述训练集以对生成对抗网络模型进行训练。
进一步地,所述构建训练集这一步骤,包括:
拍摄讲话人进行讲话的视频;
从所述视频中分离出语音和图像流;
对所述语音进行重采样,从而获得所述语音样本;
从所述图像流中分离出图像,并对所述图像进行人脸关键点检测,从而获得所述唇形关键点样本。
进一步地,所述将语音转换成唇形的方法还包括对构建的训练集进行预处理,包括:
对所述语音样本进行分帧处理;
对分帧所得的每一帧进行短时傅里叶变换,从而将所述语音转换为语音频谱图;
使用梅尔滤波器组对每一帧对应的功率谱进行滤波;
将唇形关键点样本中的每个唇形关键点的坐标减去唇形中心点的坐标,以保持平移不变性;
对每一组唇形关键点进行标准化。
进一步地,所述生成对抗网络模型包括生成网络和判别网络;所述生成网络包括多个子网络和多个卷积网络层,其中包括第一子网络和第二子网络;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华珠三角研究院;赛业(广州)生物科技有限公司,未经清华珠三角研究院;赛业(广州)生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010079894.3/2.html,转载请声明来源钻瓜专利网。