[发明专利]一种智能硬件的语音唤醒方法和装置有效
| 申请号: | 201510982997.X | 申请日: | 2015-12-23 |
| 公开(公告)号: | CN105632486B | 公开(公告)日: | 2019-12-17 |
| 发明(设计)人: | 杨占磊;司玉景 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
| 主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L17/22 |
| 代理公司: | 11323 北京市隆安律师事务所 | 代理人: | 权鲜枝 |
| 地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 智能 硬件 语音 唤醒 方法 装置 | ||
本发明实施例提供了一种智能硬件的语音唤醒方法和装置,该方法包括:在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;当匹配成功时,唤醒所述智能硬件。本发明实施例避免了用户在智能硬件中多次录入语音的操作,大大提高了操作的简便性,并且,提高了训练的样本的数量,提高了语音模型的性能,提高了唤醒时的识别准确率。
技术领域
本发明涉及智能硬件的技术领域,特别是涉及一种智能硬件的语音唤醒方法和一种智能硬件的语音唤醒装置。
背景技术
随着科技的发展,诸如智能穿戴设备、智能家居等智能硬件逐渐普及。
这些智能硬件,大多是固定位置,例如,客厅中的智能摄像机,体积较小,如果利用实体键唤醒,将大大降低用户体验。
因此,为了方便的唤醒这些智能硬件,目前是使用语音,因为语音是人与人之间最为直接、便利的交流方式。
但是,使用语音唤醒,一般需要用户先在智能硬件中多次录入语音,操作麻烦,并且,由于训练样本稀疏,语音模型性能差,唤醒时的识别准确率较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种智能硬件的语音唤醒方法和相应的一种智能硬件的语音唤醒装置。
依据本发明的一个方面,提供了一种智能硬件的语音唤醒方法,包括:
在智能硬件中检测到音频数据时,从所述音频数据中提取一段或多段语音数据;
将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配;
当匹配成功时,唤醒所述智能硬件。
可选地,所述从所述音频数据中提取一段或多段语音数据的步骤包括:
对所述语音数据进行尾点检测,识别出一段或多段非静音区;
提取所述一段或多段非静音区,作为一段或多段语音数据。
可选地,所述对所述语音数据进行尾点检测,识别出一段或多段非静音区的步骤包括:
计算每一帧音频数据属于语音数据的概率;
当所述概率高于预设的概率阈值时,确定所述音频数据属于语音帧;
当连续的语音帧超过预设的数量阈值时,确定所述连续的语音帧为一段非静音区。
可选地,所述语音模型为深度神经网络模型,基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。
可选地,所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括:
提取每一段语音数据的滤波器组特征;
将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词;
判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致;若是,则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。
可选地,所述将所述滤波器组特征输入所述深度神经网络模型,以确定所述语音数据表征唤醒词或填充词的步骤包括:
计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率;
采用所述后验概率计算置信度;
当所述置信度高于预设的置信度阈值时,确定所述语音数据表征唤醒词或填充词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510982997.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种语音识别方法和装置
- 下一篇:音乐处理系统及方法





