[发明专利]歌声合成方法、装置、计算机设备和存储介质在审

申请号：	201910695214.8	申请日：	2019-07-30
公开（公告）号：	CN110570876A	公开（公告）日：	2019-12-13
发明（设计）人：	王健宗;曾振;罗剑	申请（专利权）人：	平安科技(深圳)有限公司
主分类号：	G10L21/007	分类号：	G10L21/007;G10L25/18;G10L25/30;G10L19/16
代理公司：	44224 广州华进联合专利商标代理有限公司	代理人：	卢晓霞
地址：	518033 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本申请涉及一种歌声合成方法、装置、计算机设备和存储介质。所述方法涉及语音合成技术，包括：获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征；利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征；利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征；对歌声音频特征进行音频还原处理，得到合成歌声。采用本方法能够提高合成歌声的处理效率。
搜索关键词：	卷积语音音频歌声自编码高维合成歌声乐谱数据录音数据音频特征乐谱歌词语音合成技术计算机设备解码编码网络处理效率存储介质还原处理解码网络神经网络耦合处理网络语音合成申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种歌声合成方法，所述方法包括：/n获取歌词录音数据和乐谱数据，并从所述歌词录音数据中提取语音音频特征，从所述乐谱数据中提取乐谱特征；/n利用预先训练好的卷积自编码网络中的编码网络，对所述语音音频特征进行自编码，得到所述语音音频特征对应的语音高维卷积特征；/n利用预先训练好的全连接神经网络，对所述乐谱特征和所述语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；/n利用所述预先训练好的卷积自编码网络中的解码网络，对所述歌声高维卷积特征进行解码，得到歌声音频特征；/n对所述歌声音频特征进行音频还原处理，得到合成歌声。/n

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司，未经平安科技(深圳)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910695214.8/，转载请声明来源钻瓜专利网。

同类专利

声音转换方法及相关产品-201910749884.3
发明人：钟良;江源 -专利权人：科大讯飞股份有限公司
申请日： 2019-08-14 - 公布日： 2019-12-20 - 主分类号： G10L21/007
摘要：本申请实施例公开了一种声音转换方法及相关产品，所述方法应用于用户设备，所述方法包括如下步骤：获取目标对象的录入信息，将所述录入信息发送至网络设备；接收网络设备返回的与所述录入信息匹配的中间数据，所述中间数据为与目标发音人无关的音频特征数据；确定所述目标发音人的语音合成模型，将所述中间数据输入到语音合成模型合成得到目标语音数据。本申请提供的技术方案具有用户体验度高的优点。

基于改进的STARGAN和x向量的多对多说话人转换方法-201910874820.6
发明人：李燕萍;曹盼;张燕 -专利权人：南京邮电大学
申请日： 2019-09-17 - 公布日： 2019-12-20 - 主分类号： G10L21/007
摘要：本发明公开了一种基于改进的STARGAN与x向量的多对多说话人转换方法，包括训练阶段和转换阶段，使用了改进的STARGAN与x向量相结合来实现语音转换系统，该方法是对STARGAN在语音转换应用中的进一步改进，其中，提出的两步式对抗性损失能够有效解决由于循环一致性损失利用L1造成的过平滑问题，而且生成器采用2‑1‑2D CNN网络，能够较好地提升模型对于语义的学习能力以及语音频谱的合成能力，克服STARGAN中转换后语音相似度与自然度较差的问题。同时x向量对于短时话语具有更好的表征性能，能够充分表征说话人的个性特征，实现了一种非平行文本条件下的高质量多对多语音转换方法。

歌声合成方法、装置、计算机设备和存储介质-201910695214.8
发明人：王健宗;曾振;罗剑 -专利权人：平安科技(深圳)有限公司
申请日： 2019-07-30 - 公布日： 2019-12-13 - 主分类号： G10L21/007
摘要：本申请涉及一种歌声合成方法、装置、计算机设备和存储介质。所述方法涉及语音合成技术，包括：获取歌词录音数据和乐谱数据，并从歌词录音数据中提取语音音频特征，从乐谱数据中提取乐谱特征；利用预先训练好的卷积自编码网络中的编码网络，对语音音频特征进行自编码，得到语音音频特征对应的语音高维卷积特征；利用预先训练好的全连接神经网络，对乐谱特征和语音高维卷积特征进行耦合处理，得到歌声高维卷积特征；利用预先训练好的卷积自编码网络中的解码网络，对歌声高维卷积特征进行解码，得到歌声音频特征；对歌声音频特征进行音频还原处理，得到合成歌声。采用本方法能够提高合成歌声的处理效率。

一种虚拟观众的音频处理方法、系统和存储介质-201910670709.5
发明人：呼伦夫 -专利权人：天脉聚源(杭州)传媒科技有限公司
申请日： 2019-07-24 - 公布日： 2019-11-19 - 主分类号： G10L21/007
摘要：本发明公开了一种虚拟观众的音频处理方法、系统和存储介质，该方法包括以下步骤：获取若干个第二用户、多个第三用户以及虚拟场景的音频数据；将若干个第二用户输入的音频数据进行音频混合得到第一混合音频数据，以及将多个第三用户输入的音频数据进行音频混合得到第二混合音频数据；将第一混合音频数据和第二混合音频数据进行音频混合得到第三混合音频数据，其中，在音频混合时，所述第一混合音频数据的音量权重大于所述第二混合音频数据的音量权重；将第三混合音频数据和虚拟场景的音频数据进行混音，得到第一用户的输出音频数据。本发明通过第三用户的声音制造背景声，使得虚拟场景的声场更加真实。本发明可以广泛应用于虚拟现实技术领域。

一种基于循环生成对抗网络的语音转换方法-201910669055.4
发明人：吴哲夫;陈明达 -专利权人：浙江工业大学
申请日： 2019-07-24 - 公布日： 2019-11-15 - 主分类号： G10L21/007
摘要：一种基于循环生成对抗网络的语音转换方法，获取源说话人与目标说话人的语料库并将所有的音频统一为固定比特；按照设定的比例分成训练集、测试集和验证集；使用WORLD模型分别从源说话人和目标说话人训练集语音中提取平滑功率谱参数sp；将sp送入到CycleGAN模型中训练；模型训练完成之后使用WORLD模型从源说话人和目标说话人的验证集语音当中提取基频信息f0、非周期分量ap和平滑功率谱参数sp，并对f0做线性变换，ap不做任何处理，sp传入训练好的CycleGAN模型当中转换并输出；合成语音转换后的音频。本发明改善先前技术中语音转换的质量，并且无需并行数据集就可以实现高质量的语音转换。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]歌声合成方法、装置、计算机设备和存储介质在审

专利文献下载