[发明专利]文本转换语音的方法、装置,设备以及机器可读介质在审
申请号: | 202010585730.8 | 申请日: | 2020-06-24 |
公开(公告)号: | CN113903324A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 张子宁;张振杰;杨晓艳 | 申请(专利权)人: | 新加坡依图有限责任公司(私有) |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/04;G10L13/08;G10L25/30 |
代理公司: | 上海华诚知识产权代理有限公司 31300 | 代理人: | 徐颖聪 |
地址: | 新加坡亚洲广场*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 转换 语音 方法 装置 设备 以及 机器 可读 介质 | ||
1.一种文本转换语音的方法,其特征在于,包括:
获取文本,将所述文本切分成文字子串,并且相邻的两个所述文字子串中的前一个所述文字子串的结尾的分词与后一个所述文字子串的开头的分词相同;
生成所述文字子串对应的子音频,并且相邻的两个所述文字子串对应的子音频中的前一个所述子音频的结尾的音频帧与后一个所述子音频的开头的音频帧之间相似的音频帧;
从所述相似的音频帧的位置起,将后一个所述子音频的开头拼接至前一个所述子音频的结尾,生成所述相邻的两个所述文字子串对应的所述语音。
2.根据权利要求1所述的方法,其特征在于,将所述文本切分成至少一个文字子串,包括:基于一个预设的文字长度,使得切分后的所述文字子串的长度等于所述预设的文字长度。
3.根据权利要求1所述的方法,其特征在于,生成所述文字子串对应的子音频,包括:将所述文字子串输入一个神经网络识别模型,通过所述神经网络识别模型,识别出所述文字子串对应的子音频。
4.根据权利要求1所述的方法,其特征在于,所述文本为中文文本,通过中文分词的方式对所述文本进行分割。
5.根据权利要求1所述的方法,其特征在于,基于一个预先配置的并行阈值,并行地将数量与所述并行阈值相同的所述文字子串生成为对应的子音频。
6.一种文本转换语音的装置,其特征在于,包括:
文本切分模块,用于获取文本,将所述文本切分成文字子串,并且相邻的两个所述文字子串中的前一个所述文字子串的结尾的分词与后一个所述文字子串的开头的分词相同;
音频转化模块,用于生成所述文字子串对应的子音频,并且相邻的两个所述文字子串对应的子音频中的前一个所述子音频的结尾的音频帧与后一个所述子音频的开头的音频帧之间相似的音频帧;
音频合成模块,用于从所述相似的音频帧的位置起,将后一个所述子音频的开头拼接至前一个所述子音频的结尾,生成所述相邻的两个所述文字子串对应的所述语音。
7.根据权利要求6所述的装置,其特征在于,文本切分模块将所述文本切分成至少一个文字子串,包括:所述文本切分模块基于一个预设的文字长度,使得切分后的所述文字子串的长度等于所述预设的文字长度。
8.根据权利要求6所述的装置,其特征在于,所述音频转化模块生成所述文字子串对应的子音频,包括:所述音频转化模块将所述文字子串输入一个神经网络识别模型,通过所述神经网络识别模型,识别出所述文字子串对应的子音频。
9.根据权利要求6所述的装置,其特征在于,所述音频合成模块,所述音频转化模块基于一个预先配置的并行阈值,并行地将数量与所述并行阈值相同的所述文字子串生成为对应的子音频。
10.一种设备,其特征在于,包括:
存储器,所述存储器中存储有指令,和
处理器,用于使所述设备读取并执行所述存储器中的指令,以执行如权利要求1至5中任意一项所述的方法。
11.一种机器可读介质,其特征在于,所述机器可读介质中存储有指令,该指令被机器运行时,所述机器执行如权利要求1至5中任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新加坡依图有限责任公司(私有),未经新加坡依图有限责任公司(私有)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010585730.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种安全气囊组件
- 下一篇:一种购物系统及使用方法