[发明专利]语音模仿方法、终端设备及计算机可读存储介质有效
申请号: | 201810868960.8 | 申请日: | 2018-08-02 |
公开(公告)号: | CN109308903B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 刘博卿;贾雪丽;王健宗;肖京 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L21/007 | 分类号: | G10L21/007;G10L25/24;G10L25/30 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 官建红 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 模仿 方法 终端设备 计算机 可读 存储 介质 | ||
1.一种语音模仿方法,其特征在于,包括:
获取原始语音数据,并将所述原始语音数据通过预设的生成对抗网络GAN转换成包含所述原始语音数据中对话内容的第一梅尔谱图;
根据预设的自回归神经网络模型,将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图;
根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图,生成与所述模仿目标具有相同语言特征的语音数据;
所述获取原始语音数据,并将所述原始语音数据通过预设的生成对抗网络GAN转换成包含所述原始语音数据中对话内容的第一梅尔谱图,包括:
获取原始语音数据,识别出所述原始语音数据中的对话内容;
基于所述对话内容进行语音增强,得到语音增强数据;
将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图;
所述GAN中包括第一生成器和第二生成器;所述将所述语音增强数据通过所述GAN转换成所述第一梅尔谱图,包括:
将所述原始语音数据的所述语音增强数据x通过所述第一生成器得到第一映射结果G(x);
将所述模仿目标的语音数据y通过所述第二生成器得到第二映射结果F(y);
根据所述第一映射结果和所述第二映射结果,通过如下公式计算一致性损失:
Γ(G,F)=Ex·[||F(G(x))-x||]+Ey·[||G(F(y))-y||];
其中,Ex用于表示所述原始语音数据的期望值;Ey用于表示所述模仿目标的语音数据y的期望值;
将所述一致性损失小于预设的损失阈值时的所述原始语音数据的第一映射结果G(x)识别为所述第一梅尔谱图。
2.如权利要求1所述的语音模仿方法,其特征在于,所述根据预设的自回归神经网络模型,将所述原始语音数据转换成包含所述原始语音数据的语言特征的第二梅尔谱图,包括:
根据所述原始语音数据以及所述自回归神经网路模型中的长短期记忆网络,得到原始语音的线性语音数据;
将所述线性语音数据通过递归的方式,得到包含所述原始语音数据的语言特征的第二梅尔谱图。
3.如权利要求1或2所述的语音模仿方法,其特征在于,所述根据所述第一梅尔谱图、所述第二梅尔谱图以及预设的模仿目标的梅尔谱图,生成与所述模仿目标具有相同语言特征的语音数据之前,还可以包括:
采集所述模仿目标的目标语音数据,将所述目标语音数据和加过噪音的语料库数据作为基础数据;
对所述基础数据按照预设的采样方式进行采样,得到语音片段;
通过训练所述语音片段得到语音增强模型;所述语音增强模型用于对所述原始语音数据进行语音增强得到语音增强数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810868960.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢琴调音系统及方法
- 下一篇:一种阵列语音增强算法