[发明专利]语音输出方法、终端及计算机可读存储介质在审
申请号: | 201811632187.1 | 申请日: | 2018-12-28 |
公开(公告)号: | CN109686359A | 公开(公告)日: | 2019-04-26 |
发明(设计)人: | 李春宝 | 申请(专利权)人: | 努比亚技术有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/033;G10L13/08;G10L13/10 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市南山区高新区北环大道9018*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 朗读 触控操作 控件 侦测 计算机可读存储介质 语音朗读 语音输出 语音 文本 终端 语音合成模型 个性化需求 用户调节 用户体验 输出 合成 指令 | ||
本发明公开了一种语音输出方法,该方法包括:在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;输出所述语音,以及,显示朗读速度控件;侦测作用于所述朗读速度控件的触控操作;在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。本发明还公开了一种终端及计算机可读存储介质。本发明能够增强语音朗读的自然感,且能够满足用户调节语音朗读速度的个性化需求,从而提升了用户体验。
技术领域
本发明涉及互联网技术领域,尤其涉及一种语音输出方法、终端及计算机可读存储介质。
背景技术
随着移动互联网的发展,对语音技术的利用越来越多,语音朗读也越来越普及。比如等车、坐车、环境光线昏暗的场景下,进行视觉阅读不是很方便,而语音朗读使得用户可以随心所欲地听书籍、新闻、查阅的资料等。然而,现在的语音朗读一般是调用语音模块按照默认的语速进行逐字输出,这种输出结果用户听起来较为机械和单调,用户体验不佳。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种语音输出方法、终端及计算机可读存储介质,旨在解决现有的语音朗读较为机械和单调,用户体验不佳的技术问题。
为实现上述目的,本发明提供一种语音输出方法,所述语音输出方法包括以下步骤:
在接收到启动朗读功能的指令时,获取待朗读文本,并通过训练好的语音合成模型合成所述待朗读文本对应的语音;
输出所述语音,以及,显示朗读速度控件;
侦测作用于所述朗读速度控件的触控操作;
在侦测到作用于所述朗读速度控件的触控操作时,根据侦测到的触控操作调整所述语音的输出速度。
可选地,所述训练好的语音合成模型包括训练好的韵律分析模型和训练好的声学模型,
所述通过训练好的语音合成模型合成所述待朗读文本对应的语音的步骤包括:
通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量;
将所述文本特征向量输入至训练好的声学模型中,得到训练好的声学模型输出的声学特征向量;
根据所述声学特征向量,合成所述待朗读文本对应的语音。
可选地,所述通过训练好的韵律分析模型,提取所述待朗读文本对应的文本特征向量的步骤包括:
将所述待朗读文本输入至训练好的韵律分析模型中,进行分词处理和标注处理,得到分词结果和标注结果;
根据所述分词结果和标注结果提取所述待朗读文本对应的文本特征向量。
可选地,所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤包括:
对所述声学特征向量进行反变换处理,得到所述声学特征向量对应的声音波形;
依次拼接所述声学特征向量对应的声音波形,合成所述待朗读文本对应的语音。
可选地,所述根据所述声学特征向量,合成所述待朗读文本对应的语音的步骤,还包括:
根据所述声学特征向量,从预存真人语音片段库中,匹配所述声学特征向量对应的目标语音片段;
依次拼接匹配到的目标语音片段,合成所述待朗读文本对应的语音。
可选地,所述根据侦测到的触控操作调整所述语音的输出速度的步骤包括:
确定侦测到的触控操作对应的变速倍率;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于努比亚技术有限公司,未经努比亚技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811632187.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高保真的智能客服语音合成方法
- 下一篇:一种语音订餐机器人