[发明专利]小尺寸多通道关键字定位在审

专利信息
申请号: 202080093004.2 申请日: 2020-01-15
公开(公告)号: CN114945980A 公开(公告)日: 2022-08-26
发明(设计)人: 沃纪龙;黄亦腾 申请(专利权)人: 谷歌有限责任公司
主分类号: G10L15/16 分类号: G10L15/16;G10L15/28
代理公司: 上海华诚知识产权代理有限公司 31300 代理人: 肖华
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 尺寸 通道 关键字 定位
【说明书】:

一种检测说出的话语(120)中的热字的方法(800)包括,接收表征流传输多通道音频(118)的输入帧(210)序列。流传输多通道音频的每个通道(119)包括由单独专用麦克风(107)所捕获的相应音频特征(510)。对于每个输入帧,该方法包括,使用记忆神经网络(300)的三维(3D)奇异值分解过滤器(SVDF)输入层(302)来并行地处理每个通道的相应音频特征,以及基于相应音频特征的连接(344)来生成对应的多通道音频特征表示(420)。该方法还包括,使用顺序堆叠的SVDF层(350)来生成指示音频中热字的存在的概率分数(360)。该方法还包括,确定概率分数是否满足阈值,以及当满足时,在用户设备(102)上启动唤醒处理。

技术领域

本公开涉及流传输音频中的小尺寸(small footprint)多通道关键字定位。

背景技术

语音使能环境(例如,家庭、工作场所、学校、汽车等)允许用户向基于计算机的系统大声地说出查询或命令,该基于计算机的系统处理并回答该查询和/或基于该命令执行功能。可以使用通过该环境的各种房间或区域分布的连接的麦克风设备的网络来实施语音使能环境。这些设备可以使用热字(hotword)来帮助辨别给定的话语何时指向该系统,而不是指向该环境中存在的另一个人的话语。因此,设备可以在睡眠状态或休眠状态下运行,并且仅当检测到的话语包括热字时唤醒。这些设备可以包括两个或更多个麦克风以记录多通道音频。神经网络最近已经成为一种有吸引力的解决方案,用于训练模型来检测用户在流传输音频中说出的热字。通常,用于检测流传输音频中的热字的神经网络接收单通道的流传输音频。

发明内容

本公开的一个方面提供了一种用于训练记忆神经网络并且使用训练后的记忆神经网络来检测说出的话语中的热字的方法。方法包括,在用户设备的数据处理硬件处接收表征由与数据处理硬件进行通信的麦克风阵列所捕获的流传输多通道音频的输入帧序列。流传输多通道音频的每个通道包括由麦克风阵列中的单独专用麦克风所捕获的相应音频特征。对于每个输入帧,方法包括,由数据处理硬件使用记忆神经网络的三维(3D)奇异值分解过滤器(SVDF)输入层来并行地处理流传输多通道音频的每个通道的相应音频特征,以及由数据处理硬件使用记忆神经网络的中间层,基于流传输多通道音频的每个通道的相应音频特征的连接来生成对应的多通道音频特征表示。方法还包括,由数据处理硬件使用记忆神经网络的顺序堆叠的SVDF层,基于每个输入帧的对应的多通道音频特征表示来生成指示流传输多通道音频中热字的存在的概率分数。方法还包括,由数据处理硬件确定概率分数是否满足热字检测阈值。当概率分数满足热字检测阈值时,方法包括,由数据处理硬件在用户设备上启动唤醒处理,用于处理热字和/或流传输多通道音频中的热字之后的一个或多个其它术语。

本公开的实施方式可以包括以下可选特征中的一个或多个。在一些实施方式中,3D SVDF输入层包括多个并行的SVDF处理单体。多个并行的SVDF处理单体中的每个SVDF处理单体与流传输多通道音频的相应通道相关联,并且被配置为对相应通道的相应音频特征进行处理。在一些示例中,每个SVDF处理单体包括至少一个神经元,并且每个神经元包括相应记忆组件、第一级以及第二级,该第一级被配置为分别对每个输入帧的相应通道的相应音频特征进行过滤,并且将过滤特征输出到相应记忆组件,该第二级被配置为对驻留在相应记忆组件中的所有的过滤音频特征进行过滤。相应记忆组件与对应的神经元的相应记忆容量相关联。

可选地,每个输入帧的每个相应通道的相应音频特征包括日志过滤器组。每个输入帧可以包括四十个日志过滤器组。在一些示例中,记忆神经网络的顺序堆叠的SVDF层包括初始SVDF层,该初始SVDF层被配置为按顺序接收每个输入帧的对应的多通道音频特征表示。

在一些实施方式中,每个顺序堆叠的SVDF层包括至少一个神经元,并且每个神经元包括相应记忆组件、第一级以及第二级,该第一级被配置为分别对每个输入帧的对应的多通道音频特征表示进行过滤,并且将过滤多通道音频特征表示输出到相应记忆组件,该第二级被配置为对驻留在相应记忆组件中的所有的过滤多通道音频特征表示进行过滤。相应记忆组件与对应的神经元的相应记忆容量相关联。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080093004.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top