[发明专利]语音唤醒方法、装置和计算机可读存储介质有效
| 申请号: | 201810992991.4 | 申请日: | 2018-08-29 |
| 公开(公告)号: | CN109272989B | 公开(公告)日: | 2021-08-10 |
| 发明(设计)人: | 徐晴晴;陈宇;杨楠;耿岭 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
| 主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/22;G10L21/0216 |
| 代理公司: | 中国贸促会专利商标事务所有限公司 11038 | 代理人: | 孙玉;方亮 |
| 地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 唤醒 方法 装置 计算机 可读 存储 介质 | ||
1.一种语音唤醒方法,包括:
将语音信号在预定的多个方向上进行波束形成,得到多个波束;
将所述波束输入预先训练的关键词识别模型,得到所述波束的包含关键词的概率;
根据所述波束包含关键词的概率和所述波束的信号质量,确定指向声源方向的波束,作为声源波束;
根据连续多个时刻的声源波束的特征匹配结果,确定是否唤醒系统;
其中,所述根据连续多个时刻的声源波束的特征匹配结果,确定是否唤醒系统包括:
将连续多个时刻的声源波束指向的声源方向进行匹配,并确定所述连续多个时刻的声源波束是否均包含关键词;
在连续多个时刻的声源波束指向的声源方向一致,并且所述连续多个时刻的声源波束均包含关键词的情况下,唤醒系统。
2.根据权利要求1所述的语音唤醒方法,其中,
所述将所述波束输入预先训练的关键词识别模型包括:
根据所述波束的信号质量,选取部分波束输入预先训练的关键词识别模型。
3.根据权利要求2所述的语音唤醒方法,其中,
所述根据所述波束的信号质量,选取部分波束包括:
根据所述波束在固定时间窗内的能量和信噪比中至少一项,确定所述波束的信号质量;
选取信号质量高于信号质量阈值的部分波束。
4.根据权利要求1所述的语音唤醒方法,其中,
所述根据所述波束包含关键词的概率和所述波束的信号质量,确定指向声源方向的波束,作为声源波束包括:
将所述波束包含关键词的概率和所述波束的信号质量进行加权求和,得到波束的重要程度;
选取重要程度最高的波束作为声源波束,所述声源波束指向的方向确定为声源方向。
5.根据权利要求1所述的语音唤醒方法,其中,
所述将语音信号在预定的多个方向上进行波束形成,得到多个波束包括:
根据点源噪声的方向、点源噪声与白噪声的比例和预定方向的指向向量,确定麦克风接收到的各路语音信号相对于该预定方向的权重;
根据麦克风接收到的各路语音信号相对于该预定方向的权重,对麦克风接收到的各路语音信号进行加权求和,确定该预定方向的波束。
6.根据权利要求5所述的语音唤醒方法,其中,
所述麦克风接收到的各路语音信号相对于该预定方向的权重根据以下公式计算:
其中,Wm(k)为第m个波束处理过程中麦克风接收到的各路语音信号相对于该预定方向的权重向量,k为麦克风接收信号不同频段的编号,为第m个波束处理过程中噪声的协方差矩阵,为逆矩阵,为第m个波束处理过程中预定方向的麦克风阵列指向向量,为的共轭转置,αpsn为噪声中预定方位点源干扰噪声的比例,1-αpsn为噪声中白噪声的比例,为第m个波束处理过程中预定方位点源干扰噪声的指向向量,为共轭转置。
7.根据权利要求1所述的语音唤醒方法,还包括:
将语音信号在预定的多个方向上进行波束形成过程,得到多个波束;
对多个波束进行关键词标注,作为训练波束;
将所述训练波束输入关键词识别模型进行训练,以得到预先训练的关键词识别模型。
8.根据权利要求1所述的语音唤醒方法,其中,
在所述将语音信号在预定的多个方向上进行波束形成过程之前还包括:
将通过麦克风接收的语音信号进行回声消除。
9.根据权利要求1-8任一项所述的语音唤醒方法,其中,
所述关键词识别模型包括:深度学习模型或隐马尔科夫模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810992991.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多路卷积神经网络的语音识别方法
- 下一篇:基于卷积神经网络的语音识别方法





