[发明专利]文字转语音方法及系统在审
申请号: | 201610852935.1 | 申请日: | 2016-09-27 |
公开(公告)号: | CN107871495A | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 王颂文 | 申请(专利权)人: | 晨星半导体股份有限公司 |
主分类号: | G10L13/08 | 分类号: | G10L13/08;G10L13/06 |
代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 徐伟 |
地址: | 中国台湾新竹县*** | 国省代码: | 台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文字 语音 方法 系统 | ||
技术领域
本发明系指一种文字转语音方法及文字转语音系统,尤指一种降低语音合成所需的运算量以及提升语音合成质量的文字转语音方法及文字转语音系统。
背景技术
文字转语音(Text-to-Speech,TTS)系统主要的功能在于将所输入的文字转换成自然流畅的语音输出,其已广泛地应用于日常生活当中,举例来说,文字转语音系统可应用于车站、机场、学校等所需的公众广播,或是应用于医院或法院等所需的自动唱名(或唱号)系统,甚至可应用于有声书制作,降低有声书制作所需的生产成本。其中,以隐藏式马可夫模型为基础(Hidden Markov Model Based,HMM-based)的语音合成技术广为本领域技术所采用。
然而,HMM-based语音合成技术必须先将一文字串行全部分析完后,再根据其分析结果产生相关于该文字串行的声学参数,如激励参数(Excitation Parameter)或是频谱参数(Spectral Parameter),在此情形下,习知HMM-based语音合成技术需要相当大的运算量及存储器空间,反而不利于实时(real-time)语音合成的应用。另外,若断然将文字串行(或其对应的音素串行)切割,语音合成后会产生突然中断的不连续效果,实际上,语音合成后会在切割处产生“波”一声,使而合成后的语音听起来具有不连续感,而降低语音合成的质量。
因此,如何降低语音合成所需的运算量以及提升语音合成质量,也就成为业界所努力的目标之一。
发明内容
因此,本发明的主要目的即在于提供一种降低语音合成所需的运算量以及提升语音合成质量的文字转语音方法及文字转语音系统,以改善习知技术的缺点。
本发明揭露一种文字转语音(Text-to-Speech,TTS)方法,包含有接收一文字串行,并产生对应于该文字串行的多个音素(Phoneme),其中该多个音素形成一音素串行;于该音素串行中,插入至少一暂停音素(Pause Phoneme);以该至少一暂停音素为分割点,将该音素串行与该至少一暂停音素分割成多个音素子串行,并根据该多个音素子串行,产生多个语音片段(Segment),其中每一语音片段包含多个文本标示(Label),多个文本标示包含该多个音素之间的关系;以及逐一地对该多个语音片段进行一语音合成操作,以产生对应于该多个语音片段的多个语音输出;其中,该插入至少一暂停音素系为其所属音素子串行的最后一个音素。
本发明另揭露一种文字转语音系统,包含有一音素产生器,用来接收一文字串行,并产生对应于该文字串行的多个音素(Phoneme),其中该多个音素形成一音素串行;一暂停音素插入器,用来于该音素串行中,插入至少一暂停音素(Pause Phoneme);一分割器,用来以该至少一暂停音素为分割点,将该音素串行与该至少一暂停音素分割成多个音素子串行,并根据该多个音素子串行,产生多个语音片段(Segment),其中每一语音片段包含多个文本标示(Label),多个文本标示包含该多个音素之间的关系;以及一语音合成器,用来逐一地对该多个语音片段进行一语音合成操作,以产生对应于该多个语音片段的多个语音输出;其中,该插入至少一暂停音素系为其所属音素子串行的最后一个音素。
本发明另揭露一种文字转语音系统,包含有一处理单元;以及一储存单元,耦接于该处理单元,用来储存一程序代码,该程序代码指示该处理单元执行以下步骤:接收一文字串行,并产生对应于该文字串行的多个音素(Phoneme),其中该多个音素形成一音素串行;于该音素串行中,插入至少一暂停音素(Pause Phoneme);以该至少一暂停音素为分割点,将该音素串行与该至少一暂停音素分割成多个音素子串行,并根据该多个音素子串行,产生多个语音片段(Segment),其中每一语音片段包含多个文本标示(Label),多个文本标示包含该多个音素之间的关系;以及逐一地对该多个语音片段进行一语音合成操作,以产生对应于该多个语音片段的多个语音输出;其中,该插入至少一暂停音素系为其所属音素子串行的最后一个音素。
附图说明
图1为本发明实施例一文字转语音系统的方块图。
图2为本发明实施例一文字转语音方法的流程图。
图3为本发明实施例一音素串行、多个暂停音素以及多个语音片段的示意图。
图4为本发明实施例一语音合成方法的流程图。
图5为本发明实施例一文字转语音系统的示意图。
符号说明
10、50 文字转语音系统
100 处理单元
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晨星半导体股份有限公司,未经晨星半导体股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610852935.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音合成的方法、装置及电子设备
- 下一篇:语音识别方法和装置