[发明专利]一种语音合成方法和装置在审
| 申请号: | 202110769530.2 | 申请日: | 2021-07-07 |
| 公开(公告)号: | CN113488022A | 公开(公告)日: | 2021-10-08 |
| 发明(设计)人: | 方鹏;刘恺;陈伟 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
| 主分类号: | G10L13/04 | 分类号: | G10L13/04;G10L13/10 |
| 代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
| 地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语音 合成 方法 装置 | ||
本发明实施例提供了一种语音合成方法和装置,所述方法包括:获取待合成文本;生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。从而实现无需预处理大量素材,而通过提取文本中的隐层特征以及韵律特征,并基于字符预测语音时长,实现字符级别的语音合成。而且合成语音质量较好,同时可以降低语音合成的难度,以便用户可以根据实际需要应用于不同场景中,满足用户的个性化需求。
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语音合成方法和一种语音合成装置。
背景技术
现有技术中,通常可以基于音素实现语音合成。具体而言,基于音素的语音合成需要提前采集大量的单词以及单词对应的音素作为素材,实现文本至语音的转换;还需要提前采集大量的单词与单词对应的停顿信息作为素材,实现语音的韵律预测。但是,单词、音素、停顿信息等素材的预处理需要花费较大工作量,且基于大量素材的语音合成通常对电子设备的处理能力具有较高要求,导致语音合成工作难度较大,且基于音素的语音合成的准确率不高。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成方法和相应的一种语音合成装置。
为了解决上述问题,本发明实施例公开了一种语音合成方法,包括:
获取待合成文本;
生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长;
基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征;
根据所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音。
可选地,所述生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长的步骤,包括:
采用所述待合成文本对应的语种和/或语音风格的声学模型,生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长。
可选地,所述生成所述待合成文本的隐层特征以及韵律特征,并预测所述待合成文本中每一字符的时长的步骤,包括:
将所述待合成文本通过编码器输出所述待合成文本的隐层特征;
将所述隐层特征通过时长模型输出所述待合成文本中每一字符的时长;
将所述隐层特征通过变分自动编码器输出韵律特征。
可选地,所述基于所述待合成文本的隐层特征、韵律特征、以及所述待合成文本中每一字符的时长,生成所述待合成文本对应的声学特征的步骤,包括:
基于所述待合成文本中每一字符的时长,所述隐层特征的长度进行调整;
将调整后的所述隐层特征以及所述待合成文本的韵律特征通过解码器输出所述待合成文本对应的声学特征。
可选地,所述采用所述待合成文本对应的声学特征,生成所述待合成文本对应的文本语音的步骤,包括:
将所述待合成文本对应的声学特征输入预设的声码器中,获取所述声码器输出的所述待合成文本对应的文本语音。
可选地,所述声学模型采用如下方式训练得到:
获取一语种的训练文本以及所述训练文本对应的训练音频;
采用所述一语种的训练文本以及所述训练文本对应的训练音频,对待训练的所述声学模型进行训练,得到训练完成的所述语种的声学模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110769530.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种探针卡及晶圆测试系统
- 下一篇:一种喷枪360度旋转自动喷砂机构





