[发明专利]语音合成方法和装置、计算设备、存储介质及程序产品在审
申请号: | 202210044895.3 | 申请日: | 2022-01-14 |
公开(公告)号: | CN114373443A | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 吴志勇;黎静北;孟一;翁超;苏丹 | 申请(专利权)人: | 腾讯科技(深圳)有限公司;清华大学深圳国际研究生院 |
主分类号: | G10L13/027 | 分类号: | G10L13/027;G10L13/08;G10L15/22;G10L25/03 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张同庆;陈岚 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 合成 方法 装置 计算 设备 存储 介质 程序 产品 | ||
本申请提供了一种语音合成方法及装置。该方法包括:获取待合成对话文本以及与待合成对话文本相关联的至少一条参考对话的对话文本和对话语音;从待合成对话文本中提取待合成文本特征;针对至少一条参考对话中的每一条参考对话,从该参考对话的对话文本中提取参考文本特征,并从该参考对话的对话语音中提取参考语音特征;基于待合成文本特征、所提取的至少一个参考文本特征和所提取的至少一个参考语音特征,确定与待合成对话文本对应的预测语音特征;至少基于待合成对话文本和预测语音特征,生成与待合成对话文本对应的合成对话语音。该方法可以用于提供更为自然流畅的人机语音交互体验。
技术领域
本申请涉及计算机技术领域,具体地,涉及一种语音合成方法、语音合成装置、计算设备、计算机可读存储介质和计算机程序产品。
背景技术
语音合成(Text to Speech,TTS)指将文本转换成语音的技术,其广泛应用于诸如有声阅读、新闻播报、语音导航、智能客服、语音助手等各种应用场景。一般而言,计算设备可以基于文本中的文字序列,根据一般发音规则(例如普通话发音规则等),将文字序列转换为相应的语音。然而,对于涉及人机语音交互的应用场景,由于根据一般发音规则转换得到的语音比较死板生硬,缺乏表达方式上的灵活性和变化性,因此,其容易使用户感到乏味和突兀,难以为用户带来自然流畅的语音交互体验。
发明内容
有鉴于此,本申请提供了一种语音合成方法和装置、计算设备、存储介质及程序产品,可以缓解、减轻或甚至消除上述问题。
根据本申请的一方面,提供了一种语音合成方法,包括:获取待合成对话文本以及与待合成对话文本相关联的至少一条参考对话的对话文本和对话语音;从待合成对话文本中提取待合成文本特征;针对至少一条参考对话中的每一条参考对话,从该参考对话的对话文本中提取参考文本特征,并从该参考对话的对话语音中提取参考语音特征;基于待合成文本特征、所提取的至少一个参考文本特征和所提取的至少一个参考语音特征,确定与待合成对话文本对应的预测语音特征;至少基于待合成对话文本和预测语音特征,生成与待合成对话文本对应的合成对话语音。
在一些实施例中,基于所述待合成文本特征、所提取的至少一个参考文本特征和所提取的至少一个参考语音特征,确定与待合成对话文本对应的预测语音特征包括:基于所提取的至少一个参考文本特征和所提取的至少一个参考语音特征,确定与至少一条参考对话分别对应的至少一个混合参考特征,其中每个混合参考特征包括与相应的参考对话对应的参考文本特征和参考语音特征;基于至少一个混合参考特征,确定与至少一个混合参考特征分别对应的至少一个对话交互参考特征,其中每个对话交互参考特征包含与相应混合参考特征之外的至少一个其他混合参考特征相关联的信息;基于待合成文本特征、至少一个混合参考特征和至少一个对话交互参考特征,确定预测语音特征。
在一些实施例中,基于待合成文本特征、至少一个混合参考特征和至少一个对话交互参考特征,确定预测语音特征包括:根据至少一个混合参考特征和至少一个对话交互参考特征的对应关系,构建至少一个候选参考特征,其中,每个候选参考特征包括一个混合参考特征和对应的对话交互参考特征;基于待合成文本特征和至少一个候选参考特征,确定预测语音特征。
在一些实施例中,基于待合成文本特征和至少一个候选参考特征,确定预测语音特征包括:基于待合成文本特征,确定查询特征;基于查询特征和至少一个候选参考特征中的每一个候选参考特征的相似度,确定每一个候选参考特征所对应的权重;基于所确定的权重,确定至少一个候选参考特征的加权和;基于查询特征和加权和,确定预测语音特征。
在一些实施例中,基于查询特征和加权和,确定预测语音特征包括:基于查询特征和加权和,确定合成向量;对合成向量进行线性变换和归一化,以得到预测语音特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司;清华大学深圳国际研究生院,未经腾讯科技(深圳)有限公司;清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210044895.3/2.html,转载请声明来源钻瓜专利网。