[发明专利]语音唤醒方法、系统及智能终端有效
申请号: | 201610701651.2 | 申请日: | 2016-08-22 |
公开(公告)号: | CN107767863B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 吴国兵;潘嘉;刘聪;胡国平;胡郁;刘庆峰 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/16;G10L15/14;G10L15/02 |
代理公司: | 北京维澳专利代理有限公司 11252 | 代理人: | 赵景平;宋少华 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 唤醒 方法 系统 智能 终端 | ||
本发明公开了一种语音唤醒方法及系统,该方法包括:接收语音数据;获取所述语音数据的第一声学特征;利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;如果所述初次唤醒词识别结果为唤醒词,则判断所述初次唤醒词识别结果是否达到设定目标;如果是,则获取所述语音数据的第二声学特征;利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;根据所述二次唤醒词识别结果,确定是否唤醒成功。本发明还提供一种智能终端。利用本发明,可以有效降低语音唤醒系统功耗。
技术领域
本发明涉及语音处理领域,具体涉及一种语音唤醒方法、系统及智能终端。
背景技术
语音唤醒通过理解用户语音数据的语义信息,达到唤醒智能终端的目的,该过程无需与设备进行物理接触即可实现,从而解放了人类的双手,打开了人类通往人工智能的第一扇大门,广泛应用于各种智能终端上,如智能穿戴设备、手机、平板电脑、智能家电等。现有方法在进行语音唤醒时,接收到语音数据后,提取语音数据的声学特征,利用提取的声学特征及预先构建的声学模型进行唤醒词识别。
现有的语音唤醒方法存在以下缺点:
(1)由于无法预知用户何时进行人机交互操作,因此需要持续不断地监听,一旦接收到语音数据,立即进行唤醒词识别,这个过程会消耗智能终端大量资源,功耗较大。
(2)为了提高唤醒成功率,现有方法一般使用较大的声学模型及解码网络进行唤醒词识别,进一步增加了语音唤醒功耗,这对于内存较小的智能终端是无法接受的,当功耗过大时,常会出现死机或无应答的情况,大大降低了用户体验度。
发明内容
本发明提供一种语音唤醒方法、系统及智能终端,在保证唤醒成功率的同时,有效降低系统功耗。
为此,本发明提供如下技术方案:
一种语音唤醒方法,包括:
接收语音数据;
获取所述语音数据的第一声学特征;
利用所述第一声学特征、第一声学模型及第一解码网络进行唤醒词识别,得到初次唤醒词识别结果;
如果所述初次唤醒词识别结果为唤醒词,则判断所述初次唤醒词识别结果是否达到设定目标;
如果是,则获取所述语音数据的第二声学特征;
利用所述第二声学特征、第二声学模型及第二解码网络进行二次唤醒词识别,得到二次唤醒词识别结果;所述第二声学模型大于所述第一声学模型,和/或所述第二解码网络大于所述第一解码网络;
根据所述二次唤醒词识别结果,确定是否唤醒成功。
可选地,所述第二声学特征与第一声学特征相同或不同。
可选地,所述第一声学特征为以下任意一种特征:MFCC特征、Bottleneck特征、Filterbank特征。
优选地,所述第一声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型分别训练,唤醒词声学模型使用基于第一声学特征的GMM-HMM表征,吸收模型采用GMM-HMM来表征;
所述第二声学模型包括唤醒词声学模型和吸收模型,其中的唤醒词声学模型和吸收模型同时训练,二者均使用基于第二声学特征的神经网络模型来表征。
优选地,所述判断所述初次唤醒词识别结果是否达到设定目标包括:
确定当前环境状态;
根据所述环境状态判断所述初次唤醒词识别结果是否达到设定目标。
优选地,所述确定当前环境状态包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610701651.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:流体分歧管(卡压连接式)
- 下一篇:基于语音分享信息的方法、装置与移动终端