[发明专利]一种语音合成播报方法及装置在审

申请号：	202110297740.6	申请日：	2021-03-19
公开（公告）号：	CN112802447A	公开（公告）日：	2021-05-14
发明（设计）人：	潘帅嘉;许兵	申请（专利权）人：	成都启英泰伦科技有限公司
主分类号：	G10L13/04	分类号：	G10L13/04;G10L13/02;G10L13/08;G10L13/10;G06N3/08;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	610041 四川省成都市高***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音合成播报方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种语音合成播报方法及装置,语音合成播报方法包括如下步骤：S1.对待合成文本进行文本处理，获取文本对应的语言特征；S2.调用存储的神经网络模型，根据所述的神经网络模型预测文本信息对应的声学参数；S3.将所述声学参数进行语音合成，输出合成的语音文件；S4.播放所述合成的音频文件。采用本发明所述的语音合成播报方法，通过对待合成文本进行处理，进行声学模型预测和语音合成，播报音具有高自然度、清晰、停顿合理自然、具备不同音色等效果，极大的提高了用户的体验感。

技术领域

本发明属于语音识别技术领域，涉及语音合成技术，具体涉及一种语音合成播报方法及装置。

背景技术

语音合成技术，也被称为文语转换技术(Text To Speech，TTS)，其目标是让机器通过识别和理解，把文本信息转换成语音输出，从而让机器能够说话，是未来人机交互的重要分支。

语音合成技术应用广泛，比如网页内容朗读、小说有声阅读、电子邮件的阅读、车载语音导航播报、智能家居产品播报等。以语音导航为例，通过语音合成，手机、平板电脑等用户终端能够将用户需要的行驶路线进行实时播报，给用户带来极大的方便。

在对现有技术的研究和实践过程中，发现现有语音合成技术存在如下不足之处：

1. 合成的音频，播报自然度较低，韵律节奏不明显；

2. 合成声音较单一，用户体验感不强；

3. 语音合成，通过访问服务器，当访问量过大或网络不流畅时，难以满足客户快速合成并进行播报需求。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种语音合成播报方法。

本发明所述语音合成播报方法，包括如下步骤：

S1. 对待合成文本进行文本处理，获取文本对应的语言特征；

S2. 调用存储的神经网络模型，根据所述的神经网络模型预测文本信息对应的声学参数；

S3. 将所述声学参数进行语音合成，输出合成的语音文件；

S4. 播放所述合成的音频文件。

优选的，所述S1步骤中，文本处理具体包括以下步骤：

S11. 对待合成文本，过滤掉其中的特殊符号；

S12. 对待合成文本进行阿拉伯数字处理、发音符号处理、英文字符处理；

S13. 经过处理后的待合成文本，进行断句处理；

S14. 对断句后的文本进行韵律标注；

S15. 进行拼音标注。

优选的，所述步骤S12具体为：

当文本中包含有阿拉伯数字时，进行数字转换；

当文本中包含有发音符号时，分别处理成对应的汉字表述；

当文本中包含英文时，转换成近似发音的中文。

优选的，所述步骤S14中韵律标注具体为：采用不同韵律符号分别将文本拆分为韵律词、韵律短语、韵律短句的组合，采用不同韵律符号分别对韵律词、韵律短语、韵律短句和韵律停止进行标记，且不同韵律符号表示的停顿时间长短不同。

优选的，所述步骤S2具体为：

所述神经网络模型包括多个不同种类的深度神经网络模型，

根据步骤S1中得到的语言特征，判断发音人类型并选择与发音人类型匹配的神经网络模型，经过深度神经网络模型前向计算，模型输出对应文本的声学参数。

本发明还公开了一种语音合成播报装置，

文本处理模块，用于对待合成文本进行处理，得到文本对应的语言特征；

声学特征预测模块，用于预测所述文本对应的声学特征；

合成模块，用于将所述声学参数，进行语音合成，得到合成的语音文件；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于成都启英泰伦科技有限公司，未经成都启英泰伦科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110297740.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L13-00 语音合成；文本-语音合成系统
G10L13-02 .产生合成语音的方法；语音合成设备
G10L13-06 .语音合成设备中使用的基本语音单位；级联规则
G10L13-08 .文本分析或文本以外的语音合成参数的产生，例如语义图翻译为音素、韵律产生、重音或声调测定
G10L13-04 ..语音合成系统的零部件，例如合成设备结构或存储器管理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音合成播报方法及装置在审

专利文献下载