[发明专利]语音平滑处理模型生成方法、语音平滑处理方法及装置有效
申请号: | 202110505440.2 | 申请日: | 2021-05-10 |
公开(公告)号: | CN113241054B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 许孝先;陈孝良;李智勇;常乐 | 申请(专利权)人: | 北京声智科技有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 郭化雨 |
地址: | 100094 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 平滑 处理 模型 生成 方法 装置 | ||
1.一种语音平滑处理模型生成方法,其特征在于,所述方法包括:
获取训练合成音频,所述训练合成音频包括多个语音片段,所述多个语音片段中存在音调和/或响度不同的语音片段;
将所述训练合成音频输入第一生成网络,获得第一音频;
将所述第一音频输入第一判别网络获得判别结果;
根据所述判别结果对所述第一生成网络的参数进行调整,重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练,直至所述判别结果满足预设条件,所述第一判别网络是根据所述第一生成网络训练生成的;
将所述第一音频输入第二生成网络,获得第三音频;
根据所述第三音频以及所述第一音频对所述第一生成网络的参数进行调整,重新执行将所述训练合成音频输入第一生成网络以对所述第一生成网络继续进行训练,直至所述第三音频与所述训练合成音频之间的相似度满足预设条件。
2.根据权利要求1所述的方法,其特征在于,所述将所述训练合成音频输入第一生成网络,获得第一音频,包括:
将所述训练合成音频对应的语谱图输入第一生成网络,获得第一音频的语谱图;
所述将所述第一音频输入第一判别网络获得判别结果,包括:
将所述第一音频的语谱图输入第一判别网络获得判别结果。
3.根据权利要求1或2所述的方法,其特征在于,所述将所述第一音频输入第一判别网络获得判别结果,包括:
将所述第一音频的语谱图和第二音频的语谱图输入第一判别网络获得判别结果,所述第二音频为符合发音规则的真实音频。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述多个语音片段均属于第一用户的语音片段。
5.根据权利要求4所述的方法,其特征在于,第二音频不包括所述第一用户的音频。
6.一种语音平滑处理方法,其特征在于,所述方法包括:
获取待处理合成音频,所述待处理合成音频中包括多个语音片段,所述多个语音片段中存在音调和/或响度不同的语音片段;
将所述待处理合成音频输入第一生成网络,获得目标音频,所述目标音频中的音调和/或响度符合预设发音规则,所述第一生成网络是根据权利要求1-5任一项所述的语音平滑处理模型生成方法训练得到的。
7.根据权利要求6所述的方法,其特征在于,所述多个语音片段均属于第二用户的语音片段。
8.一种语音平滑处理模型生成装置,其特征在于,所述装置包括:
第一获取单元,用于获取训练合成音频,所述训练合成音频包括多个语音片段,所述多个语音片段中存在音调和/或响度不同的语音片段;
第二获取单元,用于将所述训练合成音频输入第一生成网络,获得第一音频;
第三获取单元,用于将所述第一音频输入第一判别网络获得判别结果;
调整单元,用于根据所述判别结果对所述第一生成网络的参数进行调整,重新执行所述第二获取单元和所述第三获取单元以对所述第一生成网络继续进行训练,直至所述判别结果满足预设条件,所述第一判别网络是根据所述第一生成网络训练的。
9.一种语音平滑处理装置,其特征在于,所述装置包括:
第一获取单元,用于获取待处理合成音频,所述待处理合成音频中包括多个语音片段,所述多个语音片段中存在音调和/或响度不同的语音片段;
第二获取单元,用于将所述待处理合成音频输入第一生成网络,获得目标音频,所述目标音频中的音调和/或响度符合预设发音规则,所述第一生成网络是根据权利要求1-5任一项所述的语音平滑处理模型生成方法训练得到的。
10.一种设备,其特征在于,包括:处理器,存储器;
所述存储器,用于存储计算机可读指令或者计算机程序;
所述处理器,用于读取所述计算机可读指令或所述计算机程序,以使得所述设备实现如权利要求1-5中任意一项所述的语音平滑处理模型生成方法,或权利要求6或7所述的语音平滑处理方法。
11.一种计算机可读存储介质,包括指令或计算机程序,当其在计算机上运行时,使得计算机执行以上权利要求1-5中任意一项所述的语音平滑处理模型生成方法,或权利要求6或7所述的语音平滑处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京声智科技有限公司,未经北京声智科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110505440.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种口腔种植导板固定装置
- 下一篇:一种运动想象脑电信号特征提取方法