[发明专利]语音平滑处理模型生成方法、语音平滑处理方法及装置有效

申请号：	202110505440.2	申请日：	2021-05-10
公开（公告）号：	CN113241054B	公开（公告）日：	2023-03-21
发明（设计）人：	许孝先;陈孝良;李智勇;常乐	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L13/033	分类号：	G10L13/033
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	郭化雨
地址：	100094 北京市海淀***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音平滑处理模型生成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例公开了一种语音平滑处理模型生成方法、语音平滑处理方法，获取训练合成音频，利用该训练合成音频训练第一生成网络。将第一生成网络基于训练合成音频生成的第一音频输入第一判别网络获得鉴别结果，如果鉴别结果不满足预设条件，则利用训练生成音频继续训练第一生成网络，直至第一生成网络所生成的第一音频输入到第一判别网络中所获得判别结果满足预设条件，则表明已对第一生成网络训练完成。在实际应用时，对于尚未平滑处理的剪辑合成的音频，将该音频输入第一生成网络，通过该第一生成网络处理后输出目标音频，该目标音频的音调和/或响度保持一致，使得目标音频中的多个语音片段播放起来更加和谐和协调，提升合成效果。

技术领域

本申请涉及多媒体处理技术领域，具体涉及一种语音平滑处理模型生成方法、语音平滑处理方法及装置。

背景技术

随着短视频平台快速崛起，剪辑类的视频受到了广大用户的喜欢。其中，一些短视频是通过剪辑热门人物或经典影视里人物在不同视频片段的句子进行合成，以达到搞笑的目的。由于剪辑合成的不同片段对应的音调差异很大，如果不进行修正，使得拼接后的音频或视频的声音不和谐，影响使用体验。然而，目前在剪辑合成后，会对每个片段的音调进行轻微修正，修正效果较差。

发明内容

有鉴于此，本申请实施例提供一种语音平滑处理模型生成方法、语音平滑处理方法及装置，以实现对剪辑合成的音频进行平滑处理，使得处理后的音频的声音更加真实、和谐。

为解决上述问题，本申请实施例提供的技术方案如下：

在本申请实施例第一方面，提供了一种语音平滑处理模型生成方法，所述方法包括：

获取训练合成音频，所述训练合成音频包括多个语音片段，所述多个语音片段中存在音调和/或响度不同的语音片段；

将所述训练合成音频输入第一生成网络，获得第一音频；

将所述第一音频输入第一判别网络获得判别结果；

根据所述判别结果对所述第一生成网络的参数进行调整，重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练，直至所述判别结果满足预设条件，所述第一判别网络是根据所述第一生成网络训练生成的。

在一种具体的实现方式中，所述将所述训练合成音频输入第一生成网络，获得第一音频，包括：

将所述训练合成音频对应的语谱图输入第一生成网络，获得第一音频的语谱图；

所述将所述第一音频输入第一判别网络获得判别结果，包括：

将所述第一音频的语谱图输入第一判别网络获得判别结果。