[发明专利]一种将语音转换成唇形的方法、系统、装置和存储介质有效

申请号：	202010079894.3	申请日：	2020-02-04
公开（公告）号：	CN111370020B	公开（公告）日：	2023-02-14
发明（设计）人：	黄桂芳;王伦基;叶俊杰;李权;任勇;韩蓝青	申请（专利权）人：	清华珠三角研究院;赛业（广州）生物科技有限公司
主分类号：	G10L21/10	分类号：	G10L21/10;G10L25/24;G10L25/30;G10L19/02;G10L19/26;G06V40/20;G06V10/77;G06T13/20;G06T13/40
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	何文聪
地址：	510530 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音转换成唇形方法系统装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种将语音转换成唇形的方法、系统、装置和存储介质，所述方法包括：获取语音序列；利用训练好的生成对抗网络模型接收所述语音序列并进行处理；获取所述训练好的生成对抗网络模型输出的唇形图像。本发明通过训练生成对抗网络模型（GAN），并利用训练好的生成对抗网络模型将语音转换唇形，能够得到高质量、高分辨率的唇形图像；生成对抗网络模型采用的是一种无监督的学习方式训练，能够明显改善语音质量，减少语音失真，增强系统的鲁棒性；当持续输入变化的语音时，最终能够输出动态的唇形图像，能够提供流畅的视觉效果；同时，将生成的唇形图像与语音结合，能够合成高质量的人脸说话视频。本发明广泛应用于语音数据技术领域。

技术领域

本发明涉及语音数据技术领域，尤其是一种将语音转换成唇形的方法、系统、装置和存储介质。

背景技术

落经过近些年的探索和发展，计算机视觉已经在数字娱乐、医疗健康、安防监控等很多领域具有应用场景。合成逼真的视觉内容不仅具有很大的商业价值，而且也是业界一直所期望的。如果没有计算机合成的综合视觉效果，许多电影特效也是不可能实现的。目前，网络上就已经存在着大量的人工合成视频。此外，语音识别与文本合成语音技术也已广泛应用于聊天机器人中，但是，现有技术普遍存在着计算量庞大、消耗时间多等缺点，多数研究基于音频的说话人脸视频生成问题都是基于图形学的方法，但是这类方法通常需要对特定的目标对象的大量视频进行训练和建模；现有的基于深度学习的方法使用Image-to-Image的方式，通过单张图像生成整个人脸说话的视频，这种方式已经足以得到很好的与提供的语音匹配的唇形，但是生成图像的质量却大打折扣，生成的结果不但分辨率不高，甚至可能出现人物的面部特征丢失或是出现色差等问题。

发明内容

针对上述至少一个技术问题，本发明的目的在于提供一种将语音转换成唇形的方法、系统、装置和存储介质。

本发明所采取的技术方案是：一方面，本发明实施例包括一种将语音转换成唇形的方法，包括：

获取语音序列；

利用训练好的生成对抗网络模型接收所述语音序列并进行处理；

获取所述训练好的生成对抗网络模型输出的唇形图像。

进一步地，所述将语音转换成唇形的方法还包括对生成对抗网络模型进行训练，包括：

构建训练集；所述训练集由语音样本和唇形关键点样本组成；

获取所述训练集以对生成对抗网络模型进行训练。

进一步地，所述构建训练集这一步骤，包括：

拍摄讲话人进行讲话的视频；

从所述视频中分离出语音和图像流；