[发明专利]语音唤醒方法、装置和计算机可读存储介质有效
| 申请号: | 201810992991.4 | 申请日: | 2018-08-29 |
| 公开(公告)号: | CN109272989B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 徐晴晴;陈宇;杨楠;耿岭 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L21/0216 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 孙玉;方亮 |
| 地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 唤醒 方法 装置 计算机 可读 存储 介质 | ||
本公开涉及一种语音唤醒方法、装置和计算机可读存储介质,涉及计算机技术领域。本公开的方法包括:将语音信号在预定的多个方向上进行波束形成,得到多个波束;将波束输入预先训练的关键词识别模型,得到波束的包含关键词的概率;根据波束包含关键词的概率和波束的信号质量,确定指向声源方向的波束,作为声源波束;根据连续多个时刻的声源波束的特征匹配结果,确定是否唤醒系统。本公开不采用现有的声源定位方法和语音唤醒流程,将波束形成算法跟声源定位算法解耦,从而避开声源定位精度对波束形成算法方位的影响,进而提高语音系统唤醒准确率,提升用户体验。
技术领域
本公开涉及计算机技术领域,特别涉及一种语音唤醒方法、装置和计算机可读存储介质。
背景技术
随着计算机技术的发展,人类与机器信息交流的需求越来越迫切。语音作为人类最自然的交互方式之一,也成为人们希望能替代鼠标键盘与计算机交流的最重要方式之一。而随着智能家居、智能车辆、智能会议系统等智能终端的发展需求越来越迫切,作为智能终端入口的智能语音唤醒系统技术受到了越来越多的关注。
语音通信过程中会受到周围环境和传播媒介引入的干扰(比如回声、混响及干扰声源等),使得计算机对语音的理解力急剧下降。由于噪声干扰总是来自四面八方,采用单个麦克风捕捉纯净语音变得非常困难。目前语音唤醒系统主要基于麦克风阵列方法,将多个麦克风采集语音进行时空域处理,从而达到抑制噪声、语音增强的目的。
发明人已知的语音唤醒方法大体包括以下步骤:通过麦克风阵列采集语音信号,对语音信号进行预处理,通过声源定位及追踪技术确定声源的角度和方位,采用波束形成技术生成指向声源角度和方位的波束,将形成的波束传输给语音识别系统进行辨识,确定是否唤醒系统。
发明内容
发明人发现:目前的声源定位按定位原理大体上可以分为三类:基于最大输出功率的可控波束形成技术、基于到达时间差技术及基于高分辨率谱估计的定位。这三类声源定位算法在混响和噪声干扰严重的环境下性能急剧下降,无法准确定位声源的角度和方位,进而直接影响后续的语音识别,影响语音唤醒的结果。
本公开所要解决的一个技术问题是:如何提高语音唤醒的准确率,提升用户体验。
根据本公开的一些实施例,提供的一种语音唤醒方法,包括:将语音信号在预定的多个方向上进行波束形成,得到多个波束;将波束输入预先训练的关键词识别模型,得到波束的包含关键词的概率;根据波束包含关键词的概率和波束的信号质量,确定指向声源方向的波束,作为声源波束;根据连续多个时刻的声源波束的特征匹配结果,确定是否唤醒系统。
在一些实施例中,将波束输入预先训练的关键词识别模型包括:根据波束的信号质量,选取部分波束输入预先训练的关键词识别模型。
在一些实施例中,根据波束的信号质量,选取部分波束包括:根据波束在固定时间窗内的能量和信噪比中至少一项,确定波束的信号质量;选取信号质量高于信号质量阈值的部分波束。
在一些实施例中,根据波束包含关键词的概率和波束的信号质量,确定指向声源方向的波束,作为声源波束包括:将波束包含关键词的概率和波束的信号质量进行加权求和,得到波束的重要程度;选取重要程度最高的波束作为声源波束,声源波束指向的方向确定为声源方向。
在一些实施例中,根据连续多个时刻的声源波束的特征匹配结果,确定是否唤醒系统包括:将连续多个时刻的声源波束指向的声源方向进行匹配,并确定连续多个时刻的声源波束是否均包含关键词;在连续多个时刻的声源波束指向的声源方向一致,并且连续多个时刻的声源波束均包含关键词的情况下,唤醒系统。
在一些实施例中,将语音信号在预定的多个方向上进行波束形成,得到多个波束包括:根据点源噪声的方向、点源噪声和白噪声的比例和预定方向的指向向量,确定麦克风接收到的各路语音信号相对于该预定方向的权重;根据麦克风接收到的各路语音信号相对于该预定方向的权重,对麦克风接收到的各路语音信号进行加权求和,确定该预定方向的波束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810992991.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多路卷积神经网络的语音识别方法
- 下一篇:基于卷积神经网络的语音识别方法





