[发明专利]歌声合成模型的训练方法、系统及歌声合成方法在审

专利信息
申请号: 201910871387.0 申请日: 2019-09-16
公开(公告)号: CN110738980A 公开(公告)日: 2020-01-31
发明(设计)人: 王健宗 申请(专利权)人: 平安科技(深圳)有限公司
主分类号: G10L13/02 分类号: G10L13/02;G10L13/04;G10L13/08;G10L13/10;G10L25/03;G10L25/18;G10L25/24;G10L25/30
代理公司: 11015 北京英特普罗知识产权代理有限公司 代理人: 王勇
地址: 518000 广东省深圳市福田区福*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明实施例提供了一种歌声合成模型的训练方法,所述方法包括获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库;将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系;从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征;及根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。本实施例通过少量语料即可高效且灵活地训练得到对应于某一或某类歌手的歌声合成模型。
搜索关键词: 乐谱 音元 歌曲 合成模型 歌声数据 语音帧 歌声 声学特征 训练数据库 乐谱数据 映射关系 构建 语料 灵活
【主权项】:
1.一种歌声合成模型的训练方法,其特征在于,所述方法包括:/n获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库;/n将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系;/n从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征,所述声学特征包括:歌声基频特征、歌声音色特征、歌唱速度特征和/或歌唱加速度特征;及/n根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910871387.0/,转载请声明来源钻瓜专利网。

同类专利
  • 一种说话人声音转换方法及装置-201811063798.9
  • 刘利娟;江源;王智国;胡国平 - 科大讯飞股份有限公司
  • 2018-09-12 - 2020-02-14 - G10L13/02
  • 本申请公开了一种说话人声音转换方法及装置,该方法包括:在获取到源说话人的源语音数据后,可以从其中提取出表征其语音内容的内容特征,然后,将该内容特征输入至预先构建的目标特征预测模型,从而可利用该模型预测得到目标说话人说出该源语音数据的语音内容时具有的目标声学特征,接着,合成具有目标声学特征的目标语音数据,该目标语音数据与源语音数据具有相同的语义信息。可见,基于源语音数据的语音内容,通过目标特征预测模型便可以预测出目标说话人说出该源语音数据的语音内容时具有的目标声学特征,而不再考虑源语音数据的频谱和基频,故而,不再受源说话人的基频提取误差等因素的影响,从而提升了声音转换的效果。
  • 一种基于面部表面肌肉信号的不发声指令识别的辅助救援通讯方法及装置-201911128112.4
  • 杨梦 - 中国矿业大学(北京)
  • 2019-11-18 - 2020-02-07 - G10L13/02
  • 本发明公开了一种基于面部表面肌肉信号的不发声指令识别的辅助救援通讯方法及装置,该方法首先通过预先贴肤在使用者面部皮肤上的测量电极实时采集相应位置的肌肉电信号;由数据处理装置对所采集的肌肉电信号进行预处理、特征提取、分类识别操作,识别出对应的指令词;再由语言处理装置将识别出的指令词转化为人工语音;然后通过射频装置将所述人工语音发送至操作人员的耳机,并通过无线方式将语音文本发送至指挥中心。上述方法和装置避免了传统语音识别结果受环境背景噪音干扰的固有问题,适应于高噪音背景或无法收音的应用场景。
  • 一种基于深度神经网络模型的情感合成方法-201611201686.6
  • 王鸣 - 云知声(上海)智能科技有限公司
  • 2016-12-23 - 2020-02-07 - G10L13/02
  • 本发明公开了一种基于深度神经网络模型的情感合成方法,包括步骤:获取第一发音人的中立声学特征数据和情感声学特征数据;利用深度神经网络模型建立第一发音人的中立声学特征数据和情感声学特征数据的情感转换模型;获取第二发音人的中立语音数据,建立第二发音人的中立语音合成模型;利用深度神经网络模型将第二发音人的中立语音合成模型与情感转换模型串联,得到第二发音人的情感语音合成模型。本发明基于一个发音人的情感模型即可获得其他任何人的情感模型,利用一个发音人的中立和情感的转换关系模型即可实现,具有数据量少,构件情感模型速度快,成本低等优势。
  • 一种生成语音包的方法、装置、设备和计算机存储介质-201910870412.3
  • 黄际洲;李莹;季永志;贾磊 - 百度在线网络技术(北京)有限公司
  • 2019-09-16 - 2020-02-04 - G10L13/02
  • 本申请公开了一种生成语音包的方法、装置、设备和计算机存储介质,涉及语音技术领域。具体实现方案为:向用户提供语音录制界面;在所述语音录制界面上获取到触发语音录制的事件后,获取用户录入的语音数据;若录入的语音数据符合训练语音合成模型的要求,则上传录入的语音数据至服务器端;接收所述服务器端利用所述语音数据训练语音合成模型后生成的语音包的下载地址。通过本申请,普通用户也能够通过客户端提供的语音录制界面即可实现个性化语音包的定制,无需专业的录制设备,大大降低了语音包的制作成本。并且大大缩短了制作周期,减少了需要录入的语音数据数量。
  • 歌声合成模型的训练方法、系统及歌声合成方法-201910871387.0
  • 王健宗 - 平安科技(深圳)有限公司
  • 2019-09-16 - 2020-01-31 - G10L13/02
  • 本发明实施例提供了一种歌声合成模型的训练方法,所述方法包括获取多首歌曲的多个歌声数据,并基于所述多个歌声数据以及所述多首歌曲对应的多首曲谱构建训练数据库;将每首歌曲的歌声数据切分为多个语音帧,将每首歌曲的乐谱数据切分为多个乐谱音元,在每首歌曲中的各个乐谱音元和相应的多个语音帧之间建立映射关系;从每首歌曲的每个乐谱音元对应的语音帧中提取声学特征;及根据每首歌曲的各个乐谱音元和各个乐谱音元对应的声学特征训练所述歌声合成模型,以得到训练后的歌声合成模型。本实施例通过少量语料即可高效且灵活地训练得到对应于某一或某类歌手的歌声合成模型。
  • 一种基于智能语音通话对答的交互方法-201911005458.5
  • 崔晶晶;张小雪 - 集奥聚合(北京)人工智能科技有限公司
  • 2019-10-22 - 2020-01-31 - G10L13/02
  • 本发明提出了一种基于智能语音通话对答的交互方法,包括:构建语音话术业务;导入用户资料及相关话术数据,并设置相应的应答音色;接入用户电话,识别并分析用户的语音数据,生成分析文本,然后根据分析文本确定相应的话术交流语音数据,以实现智能语音交互,并对用户的交流语音数据进行存储;分析用户的交流语音数据,得到用户需求以及相应建议,对上述分析需求结果进行评估和记录;根据需求结果,绘制该用户的的意向图表。本发明能够极大的减少企业的人工成本,提高服务效率,解决了目前采用人工坐席进行交互效率低下等问题。
  • 语音交互实现方法、装置、计算机设备及存储介质-201811344027.7
  • 远超;常先堂;陈怀亮 - 百度在线网络技术(北京)有限公司
  • 2018-11-13 - 2020-01-21 - G10L13/02
  • 本发明公开了语音交互实现方法、装置、计算机设备及存储介质,其中方法包括:内容服务器获取来自设备端的用户的语音信息,并按照第一方式完成本次语音交互;所述第一方式包括:将语音信息发送给自动语音识别服务器,获取自动语音识别服务器每次返回的部分语音识别结果;当确定出语音活动检测开始之后,针对每次获取到的部分语音识别结果,若通过语义理解确定出该部分语音识别结果中已经包含了用户希望表达的完整内容,则将该部分语音识别结果作为最终的语音识别结果,获取最终的语音识别结果对应的应答语音,返回给设备端。应用本发明所述方案,能够提升语音交互响应速度等。
  • 一种用于智能机器人的语音交互输出方法及机器人-201611025399.4
  • 石琰 - 北京光年无限科技有限公司
  • 2016-11-14 - 2020-01-14 - G10L13/02
  • 本发明公开了一种用于智能机器人的语音交互输出方法以及一种智能机器人。本发明的方法包括:接收来自用户的多模态交互输入信息,识别当前的用户;获取所述用户对应的语音输出参数,所述语音输出参数为根据所述用户的说话习惯生成;结合所述语音输出参数进行交互数据处理以生成语音输出。根据本发明的方法,可以使得机器人的语音输出符合用户语音交谈习惯的,不仅便于用户理解,而且大大增强了用户亲切感。根据本发明的方法,机器人的拟人度被大大提高,机器人的用户体验得到有效提升。
  • 具有高感染力的TTS处理技术-201810551651.8
  • 刘诗慧;栾剑 - 微软技术许可有限责任公司
  • 2018-05-31 - 2019-12-31 - G10L13/02
  • 本文公开的具有高感染力的TTS处理技术,除了考虑语义学特征、语言学特征之外,还对训练文本中的各个句子赋予了句子ID以区分训练文本中的各个句子,这些句子ID也被作为训练特征,引入到机器学习模型训练的过程中,从而使得机器学习模型能够学习到句子声学编码随着句子的上下文的变化规律。在使用训练后的模型进行TTS处理时,能够在韵律、语气方面具有自然的变化的输出语音,增强TTS的感染力。利用本文提供的TTS处理技术,可以生成具有高感染力有声读物,以该TTS处理技术作为核心,可以构建出具有高感染力的有声读物的在线生成系统。
  • 一种语音合成方法和装置-201610051963.3
  • 盖于涛;李秀林;康永国 - 百度在线网络技术(北京)有限公司
  • 2016-01-26 - 2019-12-24 - G10L13/02
  • 本发明提供了一种语音合成方法和装置,其中方法包括:利用预先训练的第一模型,从语音库中针对待合成语音挑选候选语音单元构成备选空间;利用预先训练的第二模型,从备选空间中选择语音单元用于拼接,使得选择的语音单元构成的序列的搜索代价最优;所述第一模型和所述第二模型中至少一个为神经网络模型。本发明能够提高最终合成的语音的自然度和表现力。
  • 数据交互方法、装置和机器人-201910876510.8
  • 寇晓宇;曹德福;徐开明;樊琴;徐胤博;李幸林 - 寇晓宇
  • 2019-09-17 - 2019-12-20 - G10L13/02
  • 本发明涉及一种数据交互方法、装置和机器人,首先获取用户的当前信息;将当前信息输入到预先构建的检测模型中进行处理,得到当前信息对应的目标情绪信息;根据目标情绪信息,生成目标情绪信息对应的情绪反馈语句;利用语音合成技术,将情绪反馈语句转化成情绪反馈语音;输出情绪反馈语音,以便根据用户的情绪对用户进行反馈。采用本发明的技术方案,可以通过分析用户的当前信息来判断用户当前的情绪,同时还可以根据用户当前的情绪向用户反馈相应的语音,例如在用户伤心时起到安慰的作用,在用户愤怒时起到安抚的作用,提高了机器人的实用性。
  • 一种导游机人工智能语音同声传译系统-201910991406.3
  • 罗锐;娄超;侯雯婕;黄麟;洪亮;朱栋林;冯炎;李俊伟;孙成梅;赵正筱;刘芷含 - 重庆旅游人工智能信息科技有限公司
  • 2019-10-18 - 2019-12-10 - G10L13/02
  • 本发明公开了一种导游机人工智能语音同声传译系统,所述人工智能语音识别系统包括使用设备、同声传译能力平台、核心算法、底层软硬件组成,所述使用设备,为我们平时所见的Android手机、ios手机等一系列可以接收音频和播放音频的设备,所述同声传译能力平台通过WEB‑API或者SDK两种方式进行对接数据,所述核心算法决定着同声传译人工智能系统的策略机制,所述底层软硬件主要用于支撑整个同声传译能力平台的运行。该系统主要用于导游机的同声传译功能,在解决导游在旅游途中遇到无法识别的音频和语言时能够及时处理,从而提高导游的工作效率,保证旅游顺畅进行。
  • 少量录音样本情况下语音合成方法-201910762228.7
  • 刘嗣平;陈孟达;柯登峰 - 广州九四智能科技有限公司
  • 2019-08-19 - 2019-12-06 - G10L13/02
  • 本发明公开了一种少量录音样本情况下语音合成方法,包括如下步骤:A)运用目标录音人员所录制的少量训练语句得到背景说话人模型;B)通过自适应算法将所得到的当前说话人语句和原始录制的完整的说话人语句,分别建立说话人模型;C)通过调整所述说话人模型的均值和方差,实现语音的合成,将录制的少量录音合成出完整的录音语句。实施本发明的少量录音样本情况下语音合成方法,具有以下有益效果:针对同样的录音文本,不必让多个客服人员进行重复录制,降低语音录制成本,并能保证整个对话过程效果的流畅性和自然度。
  • 为纯文本文档生成音频-201810441748.3
  • 刘伟;曾敏;邹超 - 微软技术许可有限责任公司
  • 2018-05-10 - 2019-11-22 - G10L13/02
  • 本公开提供了用于为纯文本文档生成音频的方法和装置。可以从所述文档中检测出至少第一话语。可以从所述文档中确定所述第一话语的语境信息。可以从所述第一话语的语境信息中确定与所述第一话语相对应的第一角色。可以确定所述第一角色的属性。可以至少基于所述第一角色的属性来选择与所述第一角色相对应的语音模型。可以通过所述语音模型来生成与所述第一话语相对应的语音。
  • 视频配音生成方法、装置、设备及存储介质-201811013623.7
  • 俄万有 - 腾讯科技(深圳)有限公司
  • 2018-08-31 - 2019-11-22 - G10L13/02
  • 本申请公开了一种视频配音生成方法、装置、设备及存储介质,属于配音技术领域。所述方法包括:获取待配音视频;将待配音视频对应的原始配音文本转化为目标配音文本,目标配音文本与原始配音文本属于不同语种;对待配音视频的原始配音进行特征提取,得到原始配音的原始音频信号特征;将原始音频信号特征输入配音模型,得到目标配音状态和目标配音语料;根据目标配音文本、目标配音状态和目标配音语料生成目标配音。采用本申请实施例提供的视频配音方法,能够根据视频中的已有配音自动为视频生成其他语种的配音,无需配音人员朗读不同语种的对白,降低了视频配音的成本,并提高了为视频进行多语种配音的效率。
  • 一种基于WaveRNN的端到端语音合成方法-201910805134.3
  • 郝洁;魏江;侯永 - 郝洁
  • 2019-08-29 - 2019-11-19 - G10L13/02
  • 本发明公开了一种基于WaveRNN的端到端语音合成方法,包括如下具体步骤:S1、前端处理,标注语言形成神经网络深度学习的音频特征向量,音频特征向量与文本字符对应;S2、文本字符输入;本发明提供一种基于WaveRNN的端到端语音合成方法,采用WaveRNN架构作为语音生成器,重构损失的相位信息,梅尔频谱特征逆变换为时域波形样本,进而生成语音提升合成语音的质量,合成的语音保真度较高,本发明中WaveRNN由称为双softmax层组成组成;WaveRNN其具有与最先进的WaveNet模型的质量匹配的双softmax层;网络的紧凑形式可以在GPU上生成比实时快4倍的24kHz16位音频;本发明创造性地把2*16的分类器,拆成了两个2*8的分类器,网络的架构和需求确实变小了,提高语音生成效。
  • 语音合成方法、装置、计算机设备及存储介质-201910602385.1
  • 向纯玉 - 深圳壹账通智能科技有限公司
  • 2019-07-05 - 2019-11-15 - G10L13/02
  • 本发明公开了一种语音合成方法、装置、计算机设备及存储介质,该方法通过获取待配音视频中的人脸图片;提取所述人脸图片的人脸特征;根据所述人脸特征确定所述待配音视频中的人脸图片对应的人脸标签;从声学模型库中选取所述人脸标签对应的声学模型,所述声学模型包括多个语音标签;确定多个所述语音标签中每个所述语音标签对应的语音特征参数;采用每个所述语音标签对应的语音特征参数为所述待配音视频中的人脸图片对应的角色合成语音,以实现提高配音准确率目的。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top