[发明专利]语音识别功能的唤醒方法及装置在审
申请号: | 201711132605.6 | 申请日: | 2017-11-15 |
公开(公告)号: | CN107871506A | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 谢书杰;苏牧 | 申请(专利权)人: | 北京云知声信息技术有限公司 |
主分类号: | G10L15/22 | 分类号: | G10L15/22;G10L15/197;G10L15/16;G10L15/06 |
代理公司: | 北京尚伦律师事务所11477 | 代理人: | 张俊国 |
地址: | 100191 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 功能 唤醒 方法 装置 | ||
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音识别功能的唤醒方法及装置。
背景技术
目前,相关技术中可以通过语音对设备进行控制,设备不是实时录音并识别语音命令的,而是先识别是否收到唤醒词,如果收到唤醒词则激活,然后识别语音命令。而如果误识别了唤醒词,则会导致误唤醒。
发明内容
本发明实施例提供一种语音识别功能的唤醒方法及装置,用以实现提高语音识别功能唤醒的准确率,降低误唤醒。
根据本发明实施例的第一方面,提供一种语音识别功能的唤醒方法,包括:
获取唤醒语音识别功能的目标唤醒词和至少一个冗余命令词;
利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型;
获取用户输入的当前语音信息;
根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度;
根据所述置信度确定是否允许唤醒所述语音识别功能。
在该实施例中,利用目标唤醒词和冗余命令词进行训练,得到唤醒词识别模型,进而通过该唤醒词识别模型确定当前语音信息属于目标唤醒词的置信度,这样,可以保证唤醒词识别的准确率,从而提高语音识别功能唤醒的准确率,降低误唤醒。
在一个实施例中,所述根据所述置信度确定是否允许唤醒所述语音识别功能,包括:
当所述置信度大于预设置信度时,允许唤醒所述语音识别功能;
当所述置信度小于或者等于所述预设置信度时,禁止唤醒所述语音识别功能。
在该实施例中,在当前语音信息属于目标唤醒词的置信度大于预设置信度时,才允许唤醒语音唤醒功能,从而降低语音唤醒功能误唤醒。
在一个实施例中,所述利用深度神经网络对所述目标唤醒词和所述至少一个冗余命令词进行训练,得到唤醒词识别模型,包括:
将所述目标唤醒词确定为正例词,将所述至少一个冗余命令词确定为负例词;
利用深度神经网络对所述正例词和所述负例词进行训练,得到所述唤醒词识别模型。
在该实施例中,冗余命令词即说这些词时一定不会唤醒语音识别功能。这样,通过将目标唤醒词作为正例,冗余命令词作为负例进行训练,得到的唤醒词识别模型可以提高唤醒词识别的准确率,降低误唤醒。
在一个实施例中,所述根据所述唤醒词识别模型确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
获取所述当前语音信息对应的当前音频帧特征序列信息;
将所述当前音频帧序列信息与目标唤醒词对应的目标识别模型序列信息进行强制对齐处理,以从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围;
计算每个音频帧的范围中每个音频帧的声学似然评分,并从所述每个音频帧的范围中选取出符合预设要求的预设数量的目标音频帧;
根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将当前语音帧特征序列信息与目标唤醒词对应的目标识别模型序列进行对齐强制处理,进而从所述当前音频帧序列信息中定位出与所述目标识别模型序列信息中的每个音素对应的音频帧的范围,并从该范围中选取出预设数量的目标音频帧,通过唤醒词识别模型和目标音频帧的特征信息确定当前语音信息属于目标唤醒词的置信度,进而确定是否唤醒语音唤醒功能。这样,有效地减少了语音唤醒的计算量,从而能应用于存在低计算资源限制的语音设备中。
在一个实施例中,所述根据所述唤醒词识别模型和目标音频帧对应的特征信息,确定所述当前语音信息属于所述目标唤醒词的置信度,包括:
使用所述唤醒词识别模型计算与每个音素对应的多个目标音频帧中每个目标音频帧的声学后验得分;
从与每个音素对应的多个声学后验得分中选取出最大声学后验得分;
根据所有音素的最大声学后验得分计算所述当前语音信息属于所述目标唤醒词的置信度。
在该实施例中,将选出的全部目标语音帧对应的特征信息使用唤醒词识别模型计算对应的声学后验得分,对每个音素的多个声学后验得分选择其中的最大后验得分,并使用全部音素的最大后验得分计算得到当前语音信息属于目标唤醒词的置信度,这样,只需要计算目标音频帧的声学后验得分,无需计算所有的音频帧的得分,在保证识别结果的准确性的基础上,大大减少了计算量,缩短了识别当前语音信息所需的时长,提升了用户的使用体验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京云知声信息技术有限公司,未经北京云知声信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711132605.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能语音动作控制设备
- 下一篇:一种语音控制PPT翻页方法及系统