[发明专利]语音合成方法及装置有效

申请号：	201811458218.6	申请日：	2018-11-30
公开（公告）号：	CN109300467B	公开（公告）日：	2021-07-06
发明（设计）人：	罗浩源	申请（专利权）人：	四川长虹电器股份有限公司
主分类号：	G10L13/047	分类号：	G10L13/047
代理公司：	成都虹桥专利事务所(普通合伙) 51124	代理人：	李凌峰
地址：	621000 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及语音处理技术领域，本发明是要解决解决当在线语音合成系统的负载过载时，在线语音合成速度慢的问题，提出一种语音合成方法及装置，所述方法包括以下步骤：对文本进行处理，获得待合成文本；实时对在线语音合成系统的负载状态进行监测；若监测到所述在线语音合成系统的负载正常，将所述待合成文本发送至在线合成语音系统进行语音合成，若监测到所述在线语音合成系统的负载过载，将所述待合成文本发送至离线语音合成系统进行语音合成。在传统语音合成方法的基础上，合理利用在线语音合成系统的负载状态，提高了在线语音合成系统的负载过载时语音合成的速度，使语音合成系统更灵活，更稳定，更自然。
搜索关键词：	语音合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.语音合成方法，其特征在于，包括以下步骤：S1.对文本进行处理，获得待合成文本；S2.实时对在线语音合成系统的负载状态进行监测；S3.若监测到所述在线语音合成系统的负载正常，将所述待合成文本发送至在线合成语音系统进行语音合成，若监测到所述在线语音合成系统的负载过载，将所述待合成文本发送至离线语音合成系统进行语音合成。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司，未经四川长虹电器股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811458218.6/，转载请声明来源钻瓜专利网。

上一篇：一种基于语音技术的复杂设备智能虚拟训练方法和系统
下一篇：一种语音标注方法及装置

同类专利

融合增强编码模块和LGNet网络的编-解码器结构的跨语种语音转换方法-202310970560.9
发明人：李燕萍;潘磊;杨泽宇 -专利权人：南京邮电大学
申请日： 2023-08-02 - 公布日： 2023-09-19 - 主分类号： G10L13/047
摘要：本发明公开一种融合增强编码模块和LGNet网络的编‑解码器结构的跨语种语音转换方法，包括训练阶段和转换阶段，训练阶段中编码器对声学特征解纠缠，获得说话人信息表征和内容表征；编码器和解码器之间采用U型连接，将说话人信息表征从编码器传递到解码器；LGNet网络对提取的内容表征进一步优化；解码器将获取的说话人信息表征和优化后的内容表征进行重构；本发明在编码器中引入增强编码模块，提升了转换语音的质量；利用LGNet网络使得优化后的源语句的内容表征和目标语句的说话人信息表征在解码器中的自适应实例归一化层中充分融合，进一步提高转换语音的自然度和说话人相似度从而实现高质量的跨语种语音转换。

音频处理方法、终端及计算机可读存储介质-202011373395.1
发明人：常磊 -专利权人：努比亚技术有限公司
申请日： 2020-11-30 - 公布日： 2023-09-19 - 主分类号： G10L13/047
摘要：本申请提供了一种音频处理方法，应用于第一终端，所述第一终端包括音频处理模块，所述音频处理方法包括：所述第一终端获取音频信息，并通过所述音频处理模块对所述音频信息进行预设处理，得到目标音频信息；所述第一终端将所述目标音频信息发送给第二终端，以供所述第二终端对所述目标音频信息进行预设操作；其中所述第二终端与所述第一终端通过预设通信协议建立通信连接。本申请还提供了一种终端和计算机可读存储介质。此种方式利用第一终端的音频处理模块对音频信息进行预设处理使得经过预设处理得到的目标音频信息效果更好，进而第二终端可以获取目标音频信息并对其进行预设操作。

播报文本的确定方法、装置、设备和介质-202010478790.X
发明人：向伟;刘嵘 -专利权人：阿波罗智联（北京）科技有限公司
申请日： 2020-05-29 - 公布日： 2023-09-15 - 主分类号： G10L13/047
摘要：本申请实施例公开了一种播报文本的确定方法、装置、设备和介质，涉及语音技术，其中，该方法包括：响应于语音服务启动指令，获取目标语音类型；将与目标语音类型匹配的播报内容信息，加载至运行内存中；响应于检测到与目标播报场景对应的播报触发条件，从运行内存中获取与目标播报场景匹配的播报文本。本申请实施例通过响应于语音服务启动指令，获取目标语音类型，并将与目标语音类型匹配的播报内容信息加载至运行内存中，最终从运行内存中获取与目标播报场景匹配的播报文本，实现了播报文本的确认，且由于在应用层代码之外存储各发音人或语言的播报内容信息，当需要维护和扩充播报内容信息时，无需修改应用层代码，便于维护与扩充。

语音环境音效切换方法、装置、电子设备及存储介质-202310633192.9
发明人：张旭龙;王健宗;程宁 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-08-04 - 主分类号： G10L13/047
摘要：本申请涉及数字医疗技术领域，提供了一种语音环境音效切换方法、装置、电子设备及计算机可读存储介质，方法包括：获取语音输入信号和目标环境语音信号；对语音输入信号和目标环境语音信号进行第一提取处理，得到第一梅尔频谱以及第二梅尔频谱；基于梅尔编码网络模型对第一梅尔频谱进行第二提取处理，得到频谱内容；基于环境音效网络模型对第二梅尔频谱和频谱内容进行音效选定处理，得到音效变量；基于调节适配网络模型对音效变量和频谱内容进行整合处理，得到语音合成信息；基于梅尔解码网络模型对语音合成信息进行解码处理，得到目标梅尔频谱。通过上述技术方案，使得用户在利用智能机器助手进行问诊的过程中给用户带来了良好的使用体验。

基于实时训练的语音重构方法、装置、计算机设备及介质-202310640597.5
发明人：张旭龙;王健宗;程宁;唐怀朕 -专利权人：平安科技（深圳）有限公司
申请日： 2023-05-31 - 公布日： 2023-08-04 - 主分类号： G10L13/047
摘要：本发明涉及人工智能技术领域，尤其涉及一种基于实时训练的语音重构方法、装置、计算机设备及介质。该方法将训练语音切分为第一语音片段和第二语音片段后，分别输入特征编码器，得到第一语音特征和第二语音特征，将训练语音输入滤波编码器，得到滤波特征，将第一语音特征和第二语音特征的均值与滤波特征输入解码器中，得到重构语音，根据第一语音特征、第二语音特征、重构语音和训练语音，对语音重构模型进行训练，基于训练好的语音重构模型对待处理语音进行重构，提高了特征解码的准确率，进而提高了语音重构的准确率，能够提高金融服务平台下机器客服语音的仿真性，进而提高用户在金融服务平台中的用户体验。

一种语音合成方法及装置、存储介质-201910878228.3
发明人：武执政;宋伟 -专利权人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
申请日： 2019-09-17 - 公布日： 2023-08-04 - 主分类号： G10L13/047
摘要：本发明实施例公开了一种语音合成方法及装置、存储介质，该方法包括：获取待合成语句的符号序列，待合成语句包括表征目标对象的录音语句和针对目标对象的查询结果语句；利用预设编码模型，对符号序列进行编码处理，得到特征向量集合；获取录音语句对应的录音声学特征；基于预设解码模型、特征向量集合、预设注意力模型和录音声学特征，对待合成语句对应的声学特征进行预测，得到待合成语句对应的预测声学特征，预设注意力模型为利用特征向量集合生成用于解码的上下文向量的模型，预测声学特征由相关联的至少一个声学特征组成；对预测声学特征进行特征转换和合成，得到待合成语句对应的语音。

一种转换未知说话人语音的方法和系统-202310051579.3
发明人：柯登峰;胡睿欣;姚文翰;罗琪;舒文涛;王运峰 -专利权人：澳克多普有限公司
申请日： 2023-02-02 - 公布日： 2023-07-28 - 主分类号： G10L13/047
摘要：本发明涉及语音合成技术领域，具体公开了一种转换未知说话人语音的方法和系统，包括获取语音数据，语音数据标注有说话人标签；对语音数据进行预处理，以获得文本特征、线性频谱和语音波形；构建语音合成模型，基于说话人标签、文本特征、线性频谱和语音波形对所述语音合成模型进行对抗式预训练，以形成预训练好的语音合成模型；对预训练好的语音合成模型进行微调训练，以生成定制化语音合成模型；基于定制化语音合成模型获得未知说话人的语音；该方法采用少量未知说话人语音数据，通过微小变化语音合成模型参数转换出未知说话人声音，从而更快、更好的适应说话人音色。

并行化Tacotron：非自回归且可控的TTS-202180077629.4
发明人：艾萨克·伊利亚斯;乔纳森·沈;比扬哈·春;张羽;贾晔;罗恩·J·韦斯;吴永辉 -专利权人：谷歌有限责任公司
申请日： 2021-05-05 - 公布日： 2023-07-18 - 主分类号： G10L13/047
摘要：一种用于训练非自回归TTS模型(300)的方法(600)包括接收参考音频信号(201)和对应输入文本序列(206)。该方法还包括将参考音频信号编码成变分嵌入(220)，该变分嵌入将样式/韵律信息从参考音频信号中分离，并且将输入文本序列编码成编码文本序列(219)。该方法还包括针对输入文本序列中的每个音素预测音素持续时间(240)并且确定音素持续时间损失(244)。该方法还包括生成用于输入文本序列的一个或多个预测梅尔频率频谱图序列(302)，并且基于预测梅尔频率频谱图序列和参考梅尔频率频谱图序列(202)确定最终谱图损失(280)。该方法还包括基于最终频谱图损失和对应音素持续时间损失来训练TTS模型。

融合DSNet与EDSR网络的非平行多对多语音转换方法-202110772028.7
发明人：李燕萍;邱祥天;戴少梁 -专利权人：南京邮电大学
申请日： 2021-07-08 - 公布日： 2023-07-18 - 主分类号： G10L13/047
摘要：本发明公开了一种融合DSNet与EDSR网络的非平行多对多语音转换方法，本方法包括训练阶段和转换阶段，训练过程不需要任何对齐过程，能够实现非平行文本条件下的多对多语音转换。训练阶段包括以下步骤：获取训练语料，训练语料由8名说话人的语料组成，说话人包含源说话人和目标说话人；提取训练语料中的声学特征向量，将特征向量输入到转换网络中进行训练，转换网络包括生成器、鉴别器和分类器，生成器融合了DSNet与EDSR网络。本方法利用EDSR网络提升模型对语音频谱信息的提取能力，再通过DSNet网络将提取的频谱信息进行特征融合，从而较好地提升了转换语音的音质和个性相似度，实现高质量的多对多语音转换。

一种语音合成方法、装置、设备及存储介质-202010478333.0
发明人：杜慷;冯大航;陈孝良 -专利权人：北京声智科技有限公司
申请日： 2020-05-29 - 公布日： 2023-07-18 - 主分类号： G10L13/047
摘要：本发明实施例提供一种语音合成方法、装置、设备及存储介质，用以提高语音合成的通用性，满足没有专业的录音设备和录音环境的普通用户的使用需求。所述语音合成方法，包括：接收语音播报指令，语音播报指令中包含语音播报文本和播报语音所使用音色对应的目标对象；获取预先采集的目标对象的预设数量条语音数据，利用预先训练的声纹识别模型提取目标对象的声纹特征信息，预先训练的声纹识别模型是基于预先采集的多个对象的语音数据训练生成的，预设数量小于预设数量阈值；利用预先训练的语音合成模型，基于语音播报文本、预先训练的声纹识别模型和所述目标对象的声纹特征信息，合成音色为目标对象音色的待播放语音；播放合成的待播放语音。

一种语音合成方法、装置、计算机设备和存储介质-202111615180.0
发明人：姜虹旭 -专利权人：大众问问（北京）信息科技有限公司
申请日： 2021-12-27 - 公布日： 2023-06-30 - 主分类号： G10L13/047
摘要：本申请涉及一种语音合成方法、装置、计算机设备和存储介质，通过获取语音测试场景的噪声音频、人声语料集和人声幅度标定值，人声语料集包括至少一段人声音频，根据噪声音频确定噪声音频每个预设时段对应的交互时间间隔，根据交互时间间隔，在人声音频的每个预设时段内插入第一时长的空白音频得到人声测试音频，能够根据不同的语音测试场景得到不同的人声测试音频，根据噪声音频、人声测试音频和人声幅度标定值合成测试音频，得到多样化的语音测试场景，更加真实地还原用户使用环境，使得测试结果更加准确客观。

音频合成方法、装置、计算机设备以及存储介质-202111615185.3
发明人：姜虹旭 -专利权人：大众问问（北京）信息科技有限公司
申请日： 2021-12-27 - 公布日： 2023-06-30 - 主分类号： G10L13/047
摘要：本申请涉及一种音频合成方法、装置、计算机设备以及存储介质。所述方法包括：获取当前模拟车载场景的场景参数；获取预先配置的与所述场景参数对应的人声语料以及噪音语料；根据所述人声语料以及所述噪音语料分别生成目标人声音频以及目标噪音音频；根据预先设定的人声信噪比对所述目标人声音频以及所述目标噪音音频进行合成，得到所述当前模拟车载场景对应的测试音频。本申请通过预先配置与所述场景参数对应的人声语料以及噪音语料，基于对该人声语料以及噪音语料的处理，合成当前模拟车载场景对应的测试音频，解决了传统技术中需要实车数据采集和翻录所带来的耗费大量时间和人力的问题。

语音迁移、语音交互方法、装置、电子设备及存储介质-202310200478.8
发明人：张光琰;李梅;张文杰;盖于涛;姜飞俊 -专利权人：浙江猫精人工智能科技有限公司
申请日： 2023-02-27 - 公布日： 2023-06-23 - 主分类号： G10L13/047
摘要：本申请实施例提供一种语音迁移、语音交互方法、装置、电子设备及存储介质，其中，所述语音迁移方法包括：获取语音迁移任务，指示有源说话人的多个语音属性信息和语音迁移任务对应的待合成文本；语音迁移任务用于使目标说话人以所述多个语音属性信息播放待合成文本，目标说话人不同于源说话人；根据多个语音属性信息和待合成文本，预测目标说话人以多个语音属性信息播放待合成文本的预测语音韵律信息；根据预测语音韵律信息和所述目标说话人的音色信息，确定迁移语音，所述迁移语音为目标说话人以多个语音属性信息和所述音色信息播放待合成文本的语音。本申请实施例提供的技术方案，可以提升跨说话人语音迁移任务的语音合成效果。

语音合成方法、装置、电子设备及计算机可读介质-202310171969.4
发明人：林伟伟;张伟彬;陈东鹏 -专利权人：深圳市声扬科技有限公司
申请日： 2023-02-21 - 公布日： 2023-06-06 - 主分类号： G10L13/047
摘要：本申请公开了一种语音合成方法、装置、电子设备及计算机可读介质，涉及语音合成技术领域，方法包括：基于输入文本，根据预先获取的基础语种语音合成模型，获取第一合成语音，根据预先获取的目标语种语音合成模型，获取第二合成语音，其中，所述目标语种语音合成模型的训练语音与所述基础语种语音合成模型的训练语音的相似度高于预设值；基于预先获取的基础语种训练语音，对所述第二合成语音进行语音转换，获取第三合成语音；基于所述第一合成语音和所述第三合成语音，获取目标合成语音。因此，进一步提升了不同语种合成语音的相似度，进而，使包括双语甚至多语的目标合成语音具有高度的音色一致性，提升听觉效果。

一种多说话人语音合成方法、装置及计算设备-202010471223.1
发明人：殷昊;陈云琳;江明奇;雷欣 -专利权人：上海墨百意信息科技有限公司
申请日： 2020-05-28 - 公布日： 2023-05-30 - 主分类号： G10L13/047
摘要：本公开提供了一种多说话人语音合成方法、装置、可读存储介质及计算设备，解决了多说话人语音合成中，不同声音类型的语音数据的数据量不平衡，导致语音合成质量下降的问题，方法包括：获取包含至少两种声音类型的多说话人语音数据；对所述多说话人语音数据作数据增强处理；将所述多说话人语音数据输入多说话人语音合成系统进行数据训练；在对所述多说话人语音合成系统完成训练后，向所述多说话人语音合成系统输入包含指定说话人和指定文本的指令，指示所述多说话人语音合成系统合成语音。

语音合成方法、装置、计算机设备及存储介质-201911368538.7
发明人：劳振锋;肖纯智 -专利权人：广州酷狗计算机科技有限公司
申请日： 2019-12-26 - 公布日： 2023-05-26 - 主分类号： G10L13/047
摘要：本申请公开了一种语音合成方法、装置、计算机设备及存储介质，属于语音信号处理领域。方法包括：获取第一对象的原始语音；对原始语音进行语音识别，得到原始语音对应的原始发音序列，原始发音序列中包括原始语音中各个字词的原始字词发音；从目标字词库中获取原始字词发音对应的目标字词发音，目标字词库中存储有第二对象对各个字词的字词发音；对各个目标字词发音进行拼接，生成目标发音序列；根据目标发音序列合成目标语音，目标语音具有第二对象的声音特征。采用本申请的语音合成方法，可直接利用第二对象的声音特征来实现合成目标语音，提高了语音合成的准确性，且目标语音具备原始语音的音高特征，使得目标语音呈现原始语音的流畅度。

多语言语音模型生成方法、装置、计算机设备及存储介质-202110219479.8
发明人：陈闽川;马骏;王少军 -专利权人：平安科技（深圳）有限公司
申请日： 2021-02-26 - 公布日： 2023-05-26 - 主分类号： G10L13/047
摘要：本发明实施例公开了一种多语言语音模型生成方法、装置、计算机设备及存储介质，其中所述方法包括获取预先采集的第一语音数据集；根据预设数据增强脚本对第二语音信息进行数据增强，以得到增强语音样本；将增强语音样本随机插入第一语音信息以得到目标语音信息；利用目标语音信息训练一神经网络，以得到一中间模型；获取预设的第二语音数据集中的基于第一语言的第三语音信息，获取第三语音信息中的音色以对中间模型进行训练，并得到一用于合成多语言语音信息的目标模型。本发明数据收集便捷，可得到用于生成对多语言语音合成单音色需求的多语言语音信息的目标模型，还能应用于智慧政务等场景中，从而推动智慧城市的建设，提高用户使用体验度。

一种基于深度学习的有声书韵律语音合成方法-202211685174.7
发明人：林伟;钟巧霞;曾碧;林镇涛 -专利权人：广东工业大学
申请日： 2022-12-27 - 公布日： 2023-05-05 - 主分类号： G10L13/047
摘要：本发明公开了一种基于深度学习的有声书韵律语音合成方法，首先，通过说话人编码器模块，提取参考音频的音频特征；其次，将待合成音频文本传入编码器和时长预测器并融合参考音频特征得到音频编码；接着通过韵律预测器和解码器输出合成音频频谱；最后，通过声码器将频谱转化为合成音频。本发明通过引入轻量卷积、韵律预测器，结合音素持续时长和音素韵律特征进行模型的训练，控制生成音频的全局韵律，解决发音容易出现错误且发声韵律单调无变化问题。

说唱音频生成方法、装置、设备和可读存储介质-202211727088.8
发明人：黄祥康;马金龙;盘子圣;焦南凯;熊佳;徐志坚;谢睿;陈光尧 -专利权人：广州趣丸网络科技有限公司
申请日： 2022-12-30 - 公布日： 2023-04-25 - 主分类号： G10L13/047
摘要：本申请公开了一种说唱音频生成方法、装置、设备和可读存储介质，方法包括：获取用户录制音频以及说唱模板；对说唱模板进行参数校验，并利用ASR模型提取说唱模板的语义PPG特征；利用GE2E模型提取用户录制音频的声纹特征，GE2E模型通过GE2E损失函数进行声纹识别任务训练得到；结合PPG语义特征和GE2E模型提取的声纹特征，转换为用户音色的梅尔普特征；利用HIFIGAN模型将用户音色的梅尔普特征转换为波形，生成说唱音频。本申请利用ASR模型提取说唱模板的语义PPG特征，并使用GE2E模型提取用户录制音频的声纹特征，使用声纹特征按照说唱模板进行替换，即可生成带有用户音色的说唱音频，优化说唱音频合成效果，提升说唱音频表现力和自然度，并且不会出现机械音情况。

跨语言情感语音合成方法、装置及计算机设备-202211502443.1
发明人：詹皓粤;余心远;林悦 -专利权人：网易（杭州）网络有限公司
申请日： 2022-11-28 - 公布日： 2023-03-14 - 主分类号： G10L13/047
摘要：本申请提供一种跨语言情感语音合成方法、装置及计算机设备，方法包括：获取待通过语音表述的文本信息，以及用于赋予语音情感的风格标签；将文本信息和风格标签输入至已训练的语音合成模型，输出采用目标情感发声的跨语言合成语音；其中，目标情感与风格标签相关联，已训练的语音合成模型被用于对文本信息和风格标签进行信息解耦处理、语音学特征预测处理以及语音合成处理。采用本申请，能够提升语音合成质量。

一种语音合成方法、装置、电子设备及存储介质-202211503515.4
发明人：汤志淼;陈新月;宋成业 -专利权人：零犀（北京）科技有限公司
申请日： 2022-11-29 - 公布日： 2023-03-10 - 主分类号： G10L13/047
摘要：本申请提供一种语音合成方法、装置、电子设备及存储介质，所述方法包括：获取待合成文本，并输入已训练的语音合成模型；其中，语音合成模型的训练数据为多组，每组训练数据包括文本样本以及相应的语音样本，多组训练数据携带至少一种情感信息；待合成文本与其中一组训练数据中的目标文本样本对应；获取语音合成模型输出的携带目标情感信息的合成语音；目标情感信息为目标文本样本相应的目标语音样本所携带的情感信息。如此，针对上述待合成文本可以合成出携带有目标情感信息的合成语音，且目标感情信息与目标文本样本相应的语音样本所携带的情感信息一致，使得合成语音具有情感表现力，提高了合成语音的质量与用户体验。

录音方法、装置、无线耳机、用户终端及计算机可读介质-202110719796.6
发明人：王三军 -专利权人： OPPO广东移动通信有限公司
申请日： 2021-06-28 - 公布日： 2023-01-13 - 主分类号： G10L13/047
摘要：本申请公开了一种录音方法、装置、无线耳机、用户终端及计算机可读介质，涉及音频处理技术领域，该方法包括：在第一无线耳机和第二无线耳机满足预设状态的情况下，采集第一用户的第一音频数据，以及获取第二无线耳机采集的第二用户的第二音频数据；基于第一音频数据的第一时间戳和第二音频数据的第二时间戳，将第一音频数据和第二音频数据整合成音频数据包；将音频数据包发送至用户终端，用户终端用于基于音频数据包生成音频文件。因此，在需要同时录制多人语音的场景下，可以分别使用两个不同的耳机对应录制不同的用户的语音，然后，再整合成音频文件，相对于使用同一个音频采集装置进行录音，提高了录制音频的便捷性和录音效果。

基于自监督学习和互信息解耦技术的语音合成方法-202211191537.1
发明人：王龙标;贡诚;张句;王宇光;关昊天 -专利权人：慧言科技（天津）有限公司
申请日： 2022-09-28 - 公布日： 2023-01-06 - 主分类号： G10L13/047
摘要：本发明公开基于自监督学习和互信息解耦技术的语音合成方法，主要包括数据预处理；采用HUBERT和wav2vec模型作为预训练的大模型，并采用大量的无标签方式对齐进行训练；设计说话人分类和风格分类两个任务作为下游任务，固定训练模型的权重参数，用于得到任务相关的特征表示；利用互信息对Tspeaker和Tstyle进行解耦；将学习好的Tspeaker和Tstyle添加到端到端语音合成模型中，端到端语音合成模型采用encoder‑attention‑decoder结构。本发明提升多说话人和多风格语音合成的质量，同时提高合成模型对于少量数据的快速适应能力。

一种双层自回归解码的序列到序列语音合成方法及系统-202010672991.3
发明人：周骁;凌震华;戴礼荣 -专利权人：中国科学技术大学
申请日： 2020-07-14 - 公布日： 2022-12-30 - 主分类号： G10L13/047
摘要：本发明提出一种双层自回归解码的序列到序列语音合成方法及系统，系统包括编码器和解码器，所述解码器包括：音素级表征模块、音素级预测模块、帧级预测模块；所述编码器将音素名、音调和韵律短语边界信息用向量表征，然后使用卷积神经网络和双向长短时记忆网络将这些信息编码融合得到句子中每个音素的上下文单元表征；所述音素级表征模块，通过帧一级的长短时记忆网络(LSTM)和池化处理获得每个音素单元的声学单元表征；所述音素级预测模块，采用音素级自回归结构来预测当前音素的声学单元表征并建立连续音素之间的依赖关系；所述帧级预测模块，通过解码器LSTM来预测帧级的声学特征。

一种语音合成方法及语音合成装置-201811360232.2
发明人：邓利群;胡月志;杨占磊;孙文华 -专利权人：华为技术有限公司
申请日： 2018-11-15 - 公布日： 2022-12-13 - 主分类号： G10L13/047
摘要：本申请实施例公开了一种语音合成方法及语音合成装置，用于合成不同情感强度的语音，提升合成语音在情感表现方面的多样性。本申请方法包括：获取获取输入文本对应的目标情感类型和目标情感强度参数；根据目标情感类型和目标情感强度参数确定对应的目标情感声学模型；将输入文本的文本特征输入目标情感声学模型中得到输入文本的声学特征；根据输入文本的声学特征合成目标情感语音。

基于声音复刻的语音播报方法、系统、存储介质及设备-202110624096.9
发明人：邢鑫 -专利权人：上海博泰悦臻网络技术服务有限公司
申请日： 2021-06-04 - 公布日： 2022-12-06 - 主分类号： G10L13/047
摘要：本发明提供基于声音复刻的语音播报方法、系统、存储介质及设备。其中，基于声音复刻的语音播报方法包括：获取至少一个用户在车内语音对话过程中的声音数据；将所述至少一个用户的声音数据分别转换为文本数据；利用所述至少一个用户的声音数据及文本数据分别进行声音复刻训练；基于目标用户所对应的声音复刻训练结果进行语音播报，以使播报声音为所述目标用户的声音。本发明通过无感知的声音复刻方式，让用户可以体验用自己的声音进行语音播报，带给用户全新的使用体验。

播报内容的方法及装置、电子设备和存储介质-202110693697.5
发明人：王静;张弛;贺利军;曹彬;王志广;徐海伦 -专利权人：北京百度网讯科技有限公司
申请日： 2021-06-22 - 公布日： 2022-11-29 - 主分类号： G10L13/047
摘要：本公开提供了一种播报内容的方法及装置、电子设备和存储介质，涉及计算机技术领域，尤其涉及智能语音播报技术。实现方案为：获取待播报内容，待播报内容包括文本和至少一个图像；将文本划分为至少一个文本块；从上述至少一个图像中确定上述至少一个文本块各自对应的一个或多个图像；以及对上述至少一个文本块进行语音播报，其中，在对一个文本块进行语音播报时，显示该文本块对应的一个或多个图像。

音频合成及相应的模型训练方法、装置、设备及存储介质-202110918198.1
发明人：高占杰;李文杰 -专利权人：北京百度网讯科技有限公司
申请日： 2021-08-11 - 公布日： 2022-11-25 - 主分类号： G10L13/047
摘要：本公开提供了一种音频合成及相应的模型训练方法、装置、设备及存储介质，涉及深度学习、语音技术与自然语言处理等人工智能技术领域。具体实现方案为：对指定音频进行切分，得到多个音频切片；采用预先训练的声学特征提取模型提取各所述音频切片对应的声学特征信息，得到多个声学特征信息；基于所述多个声学特征信息和指定文本，采用预先训练的编码器和解码器，合成相应的音频。本公开还提供了一种对声学模型的训练方案。

文本的处理方法、装置、设备及计算机可读存储介质-202010035987.6
发明人：潘俊杰 -专利权人：北京字节跳动网络技术有限公司
申请日： 2020-01-14 - 公布日： 2022-11-15 - 主分类号： G10L13/047
摘要：本公开提供一种文本的处理方法、装置、设备及计算机可读存储介质，方法包括：获取待处理文本，对所述待处理文本进行向量化处理，获得所述待处理文本对应的第一向量信息；将所述第一向量信息输入至预设的预训练层，获得所述待处理文本信息对应的稠密向量；采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理，获得所述待处理文本对应的语言学特征信息；根据所述语言学特征信息生成所述待处理文本对应的合成语音。从而避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外，无需对多个网络模型进行分别训练，训练效率较高。

语音合成模型的训练方法、语音合成方法及相关装置-202210932842.5
发明人：叶剑豪;贺天威;周鸿斌;卢恒;贺雯迪;林怡亭 -专利权人：上海喜马拉雅科技有限公司
申请日： 2022-08-04 - 公布日： 2022-11-08 - 主分类号： G10L13/047
摘要：本发明提供的语音合成模型的训练方法、语音合成方法及相关装置，语音合成模型包括声学模型、情感强度提取器、情感强度预测器和声码器，包括：获取训练样本集，通过情感强度提取器，提取每个训练样本对应的情感强度值；基于训练样本以及训练样本对应的情感强度值，对声学模型和情感强度预测器进行训练，直至声学模型和情感强度预测器均达到各自的训练条件；对声码器进行训练，直至达到声码器的训练条件，获得训练后的语音合成模型。本发明通过训练过程让情感强度提取器学到训练样本中的情感强度，从而无需人工标注情感强度，基于提取的情感强度作为标签对语音合成模型进行训练，提高了语音合成模型的训练效率和准确率。

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音合成方法及装置有效

专利文献下载