[发明专利]歌声合成方法、装置、计算机设备和存储介质在审

专利信息
申请号: 201910695214.8 申请日: 2019-07-30
公开(公告)号: CN110570876A 公开(公告)日: 2019-12-13
发明(设计)人: 王健宗;曾振;罗剑 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G10L21/007 分类号: G10L21/007;G10L25/18;G10L25/30;G10L19/16
代理公司: 44224 广州华进联合专利商标代理有限公司 代理人: 卢晓霞
地址: 518033 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 本申请涉及一种歌声合成方法、装置、计算机设备和存储介质。所述方法涉及语音合成技术,包括:获取歌词录音数据和乐谱数据,并从歌词录音数据中提取语音音频特征,从乐谱数据中提取乐谱特征;利用预先训练好的卷积自编码网络中的编码网络,对语音音频特征进行自编码,得到语音音频特征对应的语音高维卷积特征;利用预先训练好的全连接神经网络,对乐谱特征和语音高维卷积特征进行耦合处理,得到歌声高维卷积特征;利用预先训练好的卷积自编码网络中的解码网络,对歌声高维卷积特征进行解码,得到歌声音频特征;对歌声音频特征进行音频还原处理,得到合成歌声。采用本方法能够提高合成歌声的处理效率。
搜索关键词: 卷积 语音音频 歌声 自编码 高维 合成歌声 乐谱数据 录音数据 音频特征 乐谱 歌词 语音合成技术 计算机设备 解码 编码网络 处理效率 存储介质 还原处理 解码网络 神经网络 耦合处理 网络 语音 合成 申请
【主权项】:
1.一种歌声合成方法,所述方法包括:/n获取歌词录音数据和乐谱数据,并从所述歌词录音数据中提取语音音频特征,从所述乐谱数据中提取乐谱特征;/n利用预先训练好的卷积自编码网络中的编码网络,对所述语音音频特征进行自编码,得到所述语音音频特征对应的语音高维卷积特征;/n利用预先训练好的全连接神经网络,对所述乐谱特征和所述语音高维卷积特征进行耦合处理,得到歌声高维卷积特征;/n利用所述预先训练好的卷积自编码网络中的解码网络,对所述歌声高维卷积特征进行解码,得到歌声音频特征;/n对所述歌声音频特征进行音频还原处理,得到合成歌声。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910695214.8/,转载请声明来源钻瓜专利网。

同类专利
  • 声音转换方法及相关产品-201910749884.3
  • 钟良;江源 - 科大讯飞股份有限公司
  • 2019-08-14 - 2019-12-20 - G10L21/007
  • 本申请实施例公开了一种声音转换方法及相关产品,所述方法应用于用户设备,所述方法包括如下步骤:获取目标对象的录入信息,将所述录入信息发送至网络设备;接收网络设备返回的与所述录入信息匹配的中间数据,所述中间数据为与目标发音人无关的音频特征数据;确定所述目标发音人的语音合成模型,将所述中间数据输入到语音合成模型合成得到目标语音数据。本申请提供的技术方案具有用户体验度高的优点。
  • 基于改进的STARGAN和x向量的多对多说话人转换方法-201910874820.6
  • 李燕萍;曹盼;张燕 - 南京邮电大学
  • 2019-09-17 - 2019-12-20 - G10L21/007
  • 本发明公开了一种基于改进的STARGAN与x向量的多对多说话人转换方法,包括训练阶段和转换阶段,使用了改进的STARGAN与x向量相结合来实现语音转换系统,该方法是对STARGAN在语音转换应用中的进一步改进,其中,提出的两步式对抗性损失能够有效解决由于循环一致性损失利用L1造成的过平滑问题,而且生成器采用2‑1‑2D CNN网络,能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力,克服STARGAN中转换后语音相似度与自然度较差的问题。同时x向量对于短时话语具有更好的表征性能,能够充分表征说话人的个性特征,实现了一种非平行文本条件下的高质量多对多语音转换方法。
  • 歌声合成方法、装置、计算机设备和存储介质-201910695214.8
  • 王健宗;曾振;罗剑 - 平安科技(深圳)有限公司
  • 2019-07-30 - 2019-12-13 - G10L21/007
  • 本申请涉及一种歌声合成方法、装置、计算机设备和存储介质。所述方法涉及语音合成技术,包括:获取歌词录音数据和乐谱数据,并从歌词录音数据中提取语音音频特征,从乐谱数据中提取乐谱特征;利用预先训练好的卷积自编码网络中的编码网络,对语音音频特征进行自编码,得到语音音频特征对应的语音高维卷积特征;利用预先训练好的全连接神经网络,对乐谱特征和语音高维卷积特征进行耦合处理,得到歌声高维卷积特征;利用预先训练好的卷积自编码网络中的解码网络,对歌声高维卷积特征进行解码,得到歌声音频特征;对歌声音频特征进行音频还原处理,得到合成歌声。采用本方法能够提高合成歌声的处理效率。
  • 一种虚拟观众的音频处理方法、系统和存储介质-201910670709.5
  • 呼伦夫 - 天脉聚源(杭州)传媒科技有限公司
  • 2019-07-24 - 2019-11-19 - G10L21/007
  • 本发明公开了一种虚拟观众的音频处理方法、系统和存储介质,该方法包括以下步骤:获取若干个第二用户、多个第三用户以及虚拟场景的音频数据;将若干个第二用户输入的音频数据进行音频混合得到第一混合音频数据,以及将多个第三用户输入的音频数据进行音频混合得到第二混合音频数据;将第一混合音频数据和第二混合音频数据进行音频混合得到第三混合音频数据,其中,在音频混合时,所述第一混合音频数据的音量权重大于所述第二混合音频数据的音量权重;将第三混合音频数据和虚拟场景的音频数据进行混音,得到第一用户的输出音频数据。本发明通过第三用户的声音制造背景声,使得虚拟场景的声场更加真实。本发明可以广泛应用于虚拟现实技术领域。
  • 一种基于循环生成对抗网络的语音转换方法-201910669055.4
  • 吴哲夫;陈明达 - 浙江工业大学
  • 2019-07-24 - 2019-11-15 - G10L21/007
  • 一种基于循环生成对抗网络的语音转换方法,获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特;按照设定的比例分成训练集、测试集和验证集;使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp;将sp送入到CycleGAN模型中训练;模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp,并对f0做线性变换,ap不做任何处理,sp传入训练好的CycleGAN模型当中转换并输出;合成语音转换后的音频。本发明改善先前技术中语音转换的质量,并且无需并行数据集就可以实现高质量的语音转换。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top