[发明专利]一种提示音生成方法和装置、移动终端有效
申请号: | 201611209801.4 | 申请日: | 2016-12-23 |
公开(公告)号: | CN106652996B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 曾庆庚 | 申请(专利权)人: | 北京安云世纪科技有限公司 |
主分类号: | G10L13/033 | 分类号: | G10L13/033;G10L13/06;G10L13/08;G10L13/10;G10L15/26;G10L17/02 |
代理公司: | 11391 北京智汇东方知识产权代理事务所(普通合伙) | 代理人: | 康正德;孙晓芳 |
地址: | 100102 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 提示 生成 方法 装置 移动 终端 | ||
1.一种提示音生成方法,包括:
获取应用程序中需要播放的原始提示信息;
提取所述原始提示信息所对应的文字信息;
根据提取的文字信息和选定模拟用户信息,从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音;所述全局语音库中包括每个模拟用户对应的各文字的发音;
将获取的每个文字的选定模拟用户的发音进行声音合成,生成以模拟用户声音播放的模拟提示音;
其中,生成全局语音库的过程包括:
获取模拟用户的输入声音,提取输入声音的语音特征;
分析提取的语音特征,合成所述输入声音中不包含的文字的发音;
将所述输入声音中包含的文字发音和合成的文字发音,作为所述模拟用户对应的各文字的发音,存储到全局语音库。
2.根据权利要求1所述的方法,其中,所述原始提示信息包括文本原始提示信息和音频原始提示信息中的至少一种。
3.根据权利要求2所述的方法,其中,提取所述原始提示信息所对应的文字信息,具体包括:
对文本原始提示信息进行分词,根据分词结果提取出文本原始提示信息中所包含的文字;
对音频原始提示信息进行语音识别,识别出音频所对应的文字。
4.根据权利要求1所述的方法,其中,从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音,具体包括:
逐一获取所述文字信息中的每一个文字,针对获取的文字:
根据选定模拟用户的信息,查找全局语音库中存储的选定模拟用户的各文字的发音,提取出获取的文字的发音;
直到获取完所述文字信息中的所有文字,得到所述文字信息中每个文字的选定模拟用户的发音。
5.根据权利要求1所述的方法,其中,将获取的每个文字的选定模拟用户的发音进行声音合成,生成以模拟用户声音播放的模拟提示音,具体包括:
根据原始提示信息的文字顺序,采用预设的提示音合成模板,对每个文字的选定模拟用户的发音进行合成,生成与所述原始提示信息的文字顺序一致的模拟提示音。
6.根据权利要求1所述的方法,其中,输入声音的语音特征包括下列特征中的至少一种:
输入声音的音色、输入声音的音调、输入声音的语速、输入声音的频率、输入声音的幅度、输入声音的平均能量。
7.根据权利要求1所述的方法,其中,获取模拟用户的输入声音,具体包括:
启动录音功能,录入模拟用户的声音,作为模拟用户的输入声音;和/或
从其他应用程序中获取模拟用户的声音,作为模拟用户的输入声音。
8.根据权利要求7所述的方法,其中,当获取到模拟用户的输入声音有多个时,对输入声音进行筛选,从多个输入声音中筛选出音质最好的一个或多个输入声音。
9.一种提示音生成装置,包括:
信息获取模块,用于获取应用程序中需要播放的原始提示信息;
文字提取模块,用于提取所述原始提示信息所对应的文字信息;
发音匹配模块,用于根据提取的文字信息和选定模拟用户信息,从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音;所述全局语音库中包括每个模拟用户对应的各文字的发音;
声音合成模块,用于将获取的每个文字的选定模拟用户的发音进行声音合成,生成以模拟用户声音播放的模拟提示音;
语音库生成模块,用于获取模拟用户的输入声音,提取输入声音的语音特征;分析提取的语音特征,合成所述输入声音中不包含的文字的发音;将所述输入声音中包含的文字发音和合成的文字发音,作为所述模拟用户对应的各文字的发音,存储到全局语音库。
10.根据权利要求9所述的装置,其中,所述信息获取模块,具体用于:
获取包括文本原始提示信息和音频原始提示信息中的至少一种的原始提示信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京安云世纪科技有限公司,未经北京安云世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611209801.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 播放语速管理方法及装置-201610412991.3
- 周海 - 北京云知声信息技术有限公司
- 2016-06-13 - 2020-02-07 - G10L13/033
- 本发明是关于一种播放语速管理方法及装置,其中,方法包括:获取待播放的TTS播放文本;判断所述TTS播放文本所属的目标领域;确定与所述目标领域对应目标播放语速;按照所述目标播放语速播放所述TTS播放文本。通过该技术方案,获取待播放的TTS播放文本,并根据TTS播放文本所属的目标领域为其确定对应的目标播放语速,从而按照目标播放语速播放TTS播放文本,这样,不同的领域采用不同的语速播放,可以有针对性的进行播放,而不是所有文本都采用一种语速播放,从而保证用户在任何场景下都可以听清楚播放文本播放的内容,提升用户的使用体验。
- 基于智能机器人的多TTS引擎输出语速调节方法及系统-201610898765.0
- 王合心 - 北京光年无限科技有限公司
- 2016-10-14 - 2020-02-07 - G10L13/033
- 一种基于智能机器人的多TTS引擎输出语速调节方法及系统,其中,该方法包括:朗读速度确定步骤,接收多模态交互数据,对多模态交互数据进行解析,确定出需调用的TTS引擎的类型和朗读速度;输出语速确定步骤,基于语速调整模型及需调用的TTS引擎的类型和朗读速度计算需调用的TTS引擎的输出语速;语音输出步骤,调用需调用的TTS引擎以输出语速进行语音输出。相较于现有的多TTS引擎输出语速调节方法,本方法不再需要用户来对各个TTS引擎分别进行相关参数的设置,而是能够使用同一套语速调节方案来实现对不同的TTS引擎的速度设置,从而提高了多TTS引擎输出语速调节的高效性和便捷性。
- 一种提示音生成方法和装置、移动终端-201611209801.4
- 曾庆庚 - 北京安云世纪科技有限公司
- 2016-12-23 - 2020-02-07 - G10L13/033
- 本发明提供了一种提示音生成方法和装置、移动终端,该方法包括:获取应用程序中需要播放的原始提示信息;提取所述原始提示信息所对应的文字信息;根据提取的文字信息和选定模拟用户信息,从全局语音库中获取所述文字信息中每个文字的选定模拟用户的发音;所述全局语音库中包括每个模拟用户对应的各文字的发音;将获取的每个文字的选定模拟用户的发音进行声音合成,生成以模拟用户声音播放的模拟提示音。能够方便用户随心所欲的将应用程序中的提示音转化成自己希望的声音,实现简单方便,灵活性强。
- 专利分类