[发明专利]基于多尺度风格的语音合成方法、装置、设备及介质在审

申请号：	202310707136.5	申请日：	2023-06-15
公开（公告）号：	CN116597807A	公开（公告）日：	2023-08-15
发明（设计）人：	张旭龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L25/18;G10L25/63;G10L25/27
代理公司：	深圳众鼎专利商标代理事务所(普通合伙) 44325	代理人：	张小燕
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于尺度风格语音合成方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，公开了一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质，解决传统语音合成方案机器感较强、情感不够丰富的问题，方法部分包括：提取原始语音对应的目标音频和目标文本；对所述目标音频进行风格分析，得到第一风格嵌入向量；对所述目标文本进行风格预测，得到第二风格嵌入向量；融合所述第一风格嵌入向量和所述第二风格嵌入向量，得到目标风格嵌入向量；基于所述目标风格嵌入向量合成目标语音。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质。

背景技术

现有的语音合成技术已经取得了长足的进步，但是在实际生产生活中，人们很容易就分辨出是对话的另一端是机器人还是真人，这是因为合成的语音数据一般会考虑追求平稳，因此在情感和表达方面也就不会太丰富。

随着但近些年大家对情感合成以及个性化合成的兴趣与需求越来越高，目前情感语音合成工作的侧重点，基本都是在于从语句中获取上下文信息建立单一尺度的模型，却忽略了语音风格的在不同尺度上的差异性，导致合成语音的风格情况还是比较单一，不够丰富，机器感比较明显。

发明内容

本申请实施例提供一种基于多尺度风格的语音合成方法、装置、计算机设备及存储介质，以解决传统方案的合成语音的风格情况还是比较单一，不够丰富，机器感比较明显问题。

一种基于多尺度风格的语音合成方法，包括：

提取原始语音对应的目标音频和目标文本；

对所述目标音频进行风格分析，得到第一风格嵌入向量；

对所述目标文本进行风格预测，得到第二风格嵌入向量；

融合所述第一风格嵌入向量和所述第二风格嵌入向量，得到目标风格嵌入向量；

基于所述目标风格嵌入向量合成目标语音。

一种基于多尺度风格的语音合成装置，包括：

提取模块，用于提取原始语音对应的目标音频和目标文本；

风格分析模块，用于对所述目标音频进行风格分析，得到第一风格嵌入向量；

风格预测模块，用于对所述目标文本进行风格预测，得到第二风格嵌入向量；

融合模块，用于融合所述第一风格嵌入向量和所述第二风格嵌入向量，得到目标风格嵌入向量；

合成模块，用于基于所述目标风格嵌入向量合成目标语音。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多尺度风格的语音合成方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于多尺度风格的语音合成方法的步骤。

上述基于多尺度风格的语音合成方法、装置、计算机设备及存储介质所实现的方案中，与传统的方案相比，提出了多尺度的风格提取和嵌入方法，从不同尺度充分提取语音风格，突出合成语音数据的风格和情感，引入了不同尺度的语音风格分析和预测，帮助合成语音的情感话表达，提升情感语音的合成质量，可以获得最终富有情感的合成语音，解决传统语音合成方案机器感较强、情感不够丰富的问题。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于平安科技（深圳）有限公司，未经平安科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310707136.5/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多尺度风格的语音合成方法、装置、设备及介质在审

专利文献下载