[发明专利]一种语音合成的方法、装置及设备有效
申请号: | 201811269226.6 | 申请日: | 2018-10-29 |
公开(公告)号: | CN109599090B | 公开(公告)日: | 2020-10-30 |
发明(设计)人: | 韩喆;陈力;吴军 | 申请(专利权)人: | 创新先进技术有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/10 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 设备 | ||
本说明书提供了一种语音合成的方法、装置、设备及存储介质。所述方法包括:获取待合成语音的文本中的各音节的语音文件,所述语音文件存储有所述音节的采样点的音强数据;从相邻两音节的语音文件中分别获取指定采样点的音强数据;其中,前一音节的指定采样点为该音节的最后N个采样点,后一音节的指定采样点为该音节的前N个采样点,其中,N为整数;将两个音节的所述指定采样点的音强进行处理,以获得合成后的语音。通过对相邻两音节首尾部分指定采样点进行处理,使合成的语音更加自然。另外,由于只是对相邻音节部分采样点做简单处理,因此避免了大量的计算,适用于嵌入式设备等处理能力较低的设备。
技术领域
本发明涉及语音合成技术领域,尤其涉及一种语音合成的方法、装置及设备。
背景技术
语音播报在生活中很多领域都有应用,比如在使用支付宝或微信付款时自动播报到账金额,超市、车站等公共场所使用的智能播报系统等。在语音播报时,需要用到语音合成技术,即将不同音节的字或词语拼接起来,组成需要播报的一段话。目前制作播报语音的技术中,有的技术虽然可以使播报的语音听起来自然,但是此技术对设备的处理能力要求高;有的技术虽然对处理能力要求不高,但是听起来不自然。
发明内容
为克服相关技术中存在的问题,本发明提供了一种语音拼接的方法、装置及设备。
首先,本说明书提供了一种语音合成的方法,所述方法包括:
获取待合成语音的文本中的各音节的语音文件,所述语音文件存储有所述音节的采样点的音强数据;
从相邻两音节的语音文件中分别获取指定采样点的音强数据;其中,前一音节的指定采样点为该音节的最后N个采样点,后一音节的指定采样点为该音节的前N个采样点,其中,N为整数;
将两个音节的所述指定采样点的音强数据进行数据处理,以获得合成后的语音。
其次,本说明书提供了一种语音合成装置,所述装置包括:
获取单元,获取待合成语音的文本中的各音节的语音文件,所述语音文件存储有所述音节的采样点的音强数据;以及从相邻两音节的语音文件中分别获取指定采样点的音强数据;其中,前一音节的指定采样点为该音节的最后N个采样点,后一音节的指定采样点为该音节的前N个采样点,其中,N为整数;
处理单元,将两个音节的所述指定采样点的音强数据进行处理,以获得合成后的语音。
另外,本说明书还提供了一种语音合成设备,所述语音合成设备包括:处理器和存储器;
所述存储器用于存储可执行的计算机指令;
所述处理器用于执行所述计算机指令时实现以下步骤:
获取待合成语音的文本中的各音节的语音文件,所述语音文件存储有所述音节的采样点的音强数据;
从相邻两音节的语音文件中分别获取指定采样点的音强数据;其中,前一音节的指定采样点为该音节的最后N个采样点,后一音节的指定采样点为该音节的前N个采样点,其中,N为整数;
将两个音节的所述指定采样点的音强数据进行处理,以获得合成后的语音。
本说明书的有益效果:在语音合成时,将相邻两音节中前一个音节的尾部与后一个音节的首部的指定采样点的音强进行处理,使合成后的语音更加自然,另外,由于不需要通过学习模型训练,而是对相邻音节部分采样点做简单处理,因此避免了高强度的计算,使本方案更加具有适用性,适用于嵌入式设备等处理能力较低的设备。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811269226.6/2.html,转载请声明来源钻瓜专利网。