[发明专利]语音唤醒方法、装置和计算机可读存储介质有效

申请号：	201810992991.4	申请日：	2018-08-29
公开（公告）号：	CN109272989B	公开（公告）日：	2021-08-10
发明（设计）人：	徐晴晴;陈宇;杨楠;耿岭	申请（专利权）人：	北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/22;G10L21/0216
代理公司：	中国贸促会专利商标事务所有限公司 11038	代理人：	孙玉;方亮
地址：	100195 北京市海淀区杏石口路6***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音唤醒方法装置计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种语音唤醒方法、装置和计算机可读存储介质，涉及计算机技术领域。本公开的方法包括：将语音信号在预定的多个方向上进行波束形成，得到多个波束；将波束输入预先训练的关键词识别模型，得到波束的包含关键词的概率；根据波束包含关键词的概率和波束的信号质量，确定指向声源方向的波束，作为声源波束；根据连续多个时刻的声源波束的特征匹配结果，确定是否唤醒系统。本公开不采用现有的声源定位方法和语音唤醒流程，将波束形成算法跟声源定位算法解耦，从而避开声源定位精度对波束形成算法方位的影响，进而提高语音系统唤醒准确率，提升用户体验。

技术领域

本公开涉及计算机技术领域，特别涉及一种语音唤醒方法、装置和计算机可读存储介质。

背景技术

随着计算机技术的发展，人类与机器信息交流的需求越来越迫切。语音作为人类最自然的交互方式之一，也成为人们希望能替代鼠标键盘与计算机交流的最重要方式之一。而随着智能家居、智能车辆、智能会议系统等智能终端的发展需求越来越迫切，作为智能终端入口的智能语音唤醒系统技术受到了越来越多的关注。

语音通信过程中会受到周围环境和传播媒介引入的干扰(比如回声、混响及干扰声源等)，使得计算机对语音的理解力急剧下降。由于噪声干扰总是来自四面八方，采用单个麦克风捕捉纯净语音变得非常困难。目前语音唤醒系统主要基于麦克风阵列方法，将多个麦克风采集语音进行时空域处理，从而达到抑制噪声、语音增强的目的。

发明人已知的语音唤醒方法大体包括以下步骤：通过麦克风阵列采集语音信号，对语音信号进行预处理，通过声源定位及追踪技术确定声源的角度和方位，采用波束形成技术生成指向声源角度和方位的波束，将形成的波束传输给语音识别系统进行辨识，确定是否唤醒系统。

发明内容

发明人发现：目前的声源定位按定位原理大体上可以分为三类：基于最大输出功率的可控波束形成技术、基于到达时间差技术及基于高分辨率谱估计的定位。这三类声源定位算法在混响和噪声干扰严重的环境下性能急剧下降，无法准确定位声源的角度和方位，进而直接影响后续的语音识别，影响语音唤醒的结果。

本公开所要解决的一个技术问题是：如何提高语音唤醒的准确率，提升用户体验。

根据本公开的一些实施例，提供的一种语音唤醒方法，包括：将语音信号在预定的多个方向上进行波束形成，得到多个波束；将波束输入预先训练的关键词识别模型，得到波束的包含关键词的概率；根据波束包含关键词的概率和波束的信号质量，确定指向声源方向的波束，作为声源波束；根据连续多个时刻的声源波束的特征匹配结果，确定是否唤醒系统。

在一些实施例中，将波束输入预先训练的关键词识别模型包括：根据波束的信号质量，选取部分波束输入预先训练的关键词识别模型。

在一些实施例中，根据波束的信号质量，选取部分波束包括：根据波束在固定时间窗内的能量和信噪比中至少一项，确定波束的信号质量；选取信号质量高于信号质量阈值的部分波束。

在一些实施例中，根据波束包含关键词的概率和波束的信号质量，确定指向声源方向的波束，作为声源波束包括：将波束包含关键词的概率和波束的信号质量进行加权求和，得到波束的重要程度；选取重要程度最高的波束作为声源波束，声源波束指向的方向确定为声源方向。

在一些实施例中，根据连续多个时刻的声源波束的特征匹配结果，确定是否唤醒系统包括：将连续多个时刻的声源波束指向的声源方向进行匹配，并确定连续多个时刻的声源波束是否均包含关键词；在连续多个时刻的声源波束指向的声源方向一致，并且连续多个时刻的声源波束均包含关键词的情况下，唤醒系统。

在一些实施例中，将语音信号在预定的多个方向上进行波束形成，得到多个波束包括：根据点源噪声的方向、点源噪声和白噪声的比例和预定方向的指向向量，确定麦克风接收到的各路语音信号相对于该预定方向的权重；根据麦克风接收到的各路语音信号相对于该预定方向的权重，对麦克风接收到的各路语音信号进行加权求和，确定该预定方向的波束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司，未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810992991.4/2.html，转载请声明来源钻瓜专利网。

上一篇：基于多路卷积神经网络的语音识别方法
下一篇：基于卷积神经网络的语音识别方法

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音唤醒方法、装置和计算机可读存储介质有效

专利文献下载