[发明专利]语音平滑处理模型生成方法、语音平滑处理方法及装置有效
申请号: | 202110505440.2 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113241054B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 许孝先;陈孝良;李智勇;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭化雨 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 平滑 处理 模型 生成 方法 装置 | ||
本申请实施例公开了一种语音平滑处理模型生成方法、语音平滑处理方法,获取训练合成音频,利用该训练合成音频训练第一生成网络。将第一生成网络基于训练合成音频生成的第一音频输入第一判别网络获得鉴别结果,如果鉴别结果不满足预设条件,则利用训练生成音频继续训练第一生成网络,直至第一生成网络所生成的第一音频输入到第一判别网络中所获得判别结果满足预设条件,则表明已对第一生成网络训练完成。在实际应用时,对于尚未平滑处理的剪辑合成的音频,将该音频输入第一生成网络,通过该第一生成网络处理后输出目标音频,该目标音频的音调和/或响度保持一致,使得目标音频中的多个语音片段播放起来更加和谐和协调,提升合成效果。
技术领域
本申请涉及多媒体处理技术领域,具体涉及一种语音平滑处理模型生成方法、语音平滑处理方法及装置。
背景技术
随着短视频平台快速崛起,剪辑类的视频受到了广大用户的喜欢。其中,一些短视频是通过剪辑热门人物或经典影视里人物在不同视频片段的句子进行合成,以达到搞笑的目的。由于剪辑合成的不同片段对应的音调差异很大,如果不进行修正,使得拼接后的音频或视频的声音不和谐,影响使用体验。然而,目前在剪辑合成后,会对每个片段的音调进行轻微修正,修正效果较差。
发明内容
有鉴于此,本申请实施例提供一种语音平滑处理模型生成方法、语音平滑处理方法及装置,以实现对剪辑合成的音频进行平滑处理,使得处理后的音频的声音更加真实、和谐。
为解决上述问题,本申请实施例提供的技术方案如下:
在本申请实施例第一方面,提供了一种语音平滑处理模型生成方法,所述方法包括:
获取训练合成音频,所述训练合成音频包括多个语音片段,所述多个语音片段中存在音调和/或响度不同的语音片段;
将所述训练合成音频输入第一生成网络,获得第一音频;
将所述第一音频输入第一判别网络获得判别结果;
根据所述判别结果对所述第一生成网络的参数进行调整,重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练,直至所述判别结果满足预设条件,所述第一判别网络是根据所述第一生成网络训练生成的。
在一种具体的实现方式中,所述将所述训练合成音频输入第一生成网络,获得第一音频,包括:
将所述训练合成音频对应的语谱图输入第一生成网络,获得第一音频的语谱图;
所述将所述第一音频输入第一判别网络获得判别结果,包括:
将所述第一音频的语谱图输入第一判别网络获得判别结果。
在一种具体的实现方式中,所述将所述第一音频输入第一判别网络获得判别结果,包括:
将所述第一音频的语谱图和第二音频的语谱图输入第一判别网络获得判别结果,所述第二音频为符合发音规则的真实音频。
在一种具体的实现方式中,所述方法还包括:
根据所述第一音频输入第二生成网络,获得第三音频;
根据所述第三音频以及所述第一音频对所述第一生成网络的参数进行调整,重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练,直至所述第三音频与所述训练合成音频之间的相似度满足预设条件。
在一种具体的实现方式中,所述多个语音片段均属于第一用户的语音片段。
在一种具体的实现方式中,第二音频不包括所述第一用户的音频。
在本申请实施例第二方面,提供了一种语音平滑处理方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110505440.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种口腔种植导板固定装置
- 下一篇:一种运动想象脑电信号特征提取方法