[发明专利]一种语音交互方法、装置和智能终端有效
申请号: | 201780003279.0 | 申请日: | 2017-12-27 |
公开(公告)号: | CN108369805B | 公开(公告)日: | 2019-08-13 |
发明(设计)人: | 张含波 | 申请(专利权)人: | 深圳前海达闼云端智能科技有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L13/033;G10L21/034 |
代理公司: | 深圳市爱迪森知识产权代理事务所(普通合伙) 44341 | 代理人: | 何婷 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应答语音 语音交互 主频率 交互环境 噪声频率 噪声信息 噪声音量 智能终端 合成 指令 播放音量 动态调整 掩蔽效应 音量播放 音量 播放 检测 | ||
本发明实施例提供了一种语音交互方法、装置和智能终端。其中,所述方法包括:当接收到语音交互指令时,检测当前交互环境的噪声信息,所述噪声信息包括噪声音量和噪声频率;根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率;基于所述主频率合成所述应答语音;根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量;以所确定的所述音量播放所述应答语音。通过上述技术方案,本发明实施例能够基于声音的掩蔽效应,根据当前的交互环境的噪声信息动态调整其应答语音的主频率和播放音量,使得用户在任意交互环境下都可以获得较好的语音交互体验。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音交互方法、装置和智能终端。
背景技术
随着人工智能技术的不断发展,智能机器人、智能家居、智能手机、智能家电、智能车载设备等智能终端受到了越来越多的用户的青睐,人们的生活已经逐渐走入人工智能时代。
其中,为了方便用户的使用,很多智能终端都配置有语音交互功能,能够向用户作出语音响应。一般地,智能终端可以在接收到语音交互指令时,根据该语音交互指令生成应答文本,然后基于该应答文本进行文本语音转换,即,TTS(Text to Speech)转换,合成应答语音,最后向用户播放所合成的应答语音。
在实现本发明的过程中,发明人发现:目前的智能终端在基于应答文本进行发声的过程中,基本都是以预先设定好的频率合成应答语音,并以固定的音量播放所合成的应答语音,没有考虑交互环境的噪声状况,从而使得有时候用户听到智能终端的应答语音的音量较小,无法听清楚对话内容;或者,有时候用户听到智能终端的应答语音的音量较大,不符合当时的气氛,甚至有可能被吓到。在进行语音交互的过程中,用户听到智能终端的应答语音的音量过大或者过小,均不利于用户的友好体验。
因此,现有的语音交互技术还有待于改进和发展。
发明内容
本发明实施例提供一种语音交互方法、装置和智能终端,能够解决现有人机交互体验受交互环境的噪声状况的影响较大,不利于提升用户体验的问题。
为解决上述技术问题,本发明实施例提供了以下几种技术方案:
第一方面,本发明实施例提供了一种语音交互方法,应用于智能终端,该方法包括:
当接收到语音交互指令时,检测当前交互环境的噪声信息,所述噪声信息包括噪声音量和噪声频率;
根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率;
基于所述主频率合成所述应答语音;
根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量;
以所确定的所述音量播放所述应答语音。
第二方面,本发明实施例提供一种语音交互装置,运行于智能终端,包括:
噪声检测单元,用于当接收到语音交互指令时,检测当前交互环境的噪声信息,所述噪声信息包括噪声音量和噪声频率;
主频率确定单元,用于根据所述噪声频率确定用于合成与所述语音交互指令对应的应答语音的主频率;
语音合成单元,用于基于所述主频率合成所述应答语音;
音量确定单元,用于根据所述噪声音量、所述噪声频率和所述应答语音的主频率确定播放所述应答语音的音量;
播放单元,用于以所确定的所述音量播放所述应答语音。
第三方面,本发明实施例提供一种智能终端,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海达闼云端智能科技有限公司,未经深圳前海达闼云端智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780003279.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音交互设备和语音交互方法
- 下一篇:可配置的通用语言理解模型