[发明专利]远场自动语音识别预处理在审
| 申请号: | 201780029587.0 | 申请日: | 2017-05-16 |
| 公开(公告)号: | CN109074816A | 公开(公告)日: | 2018-12-21 |
| 发明(设计)人: | A·库普里亚诺夫;P·玛兹斯基;L·库里洛 | 申请(专利权)人: | 英特尔公司 |
| 主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L19/26;G10L21/0216 |
| 代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 李炜;黄嵩泉 |
| 地址: | 美国加利*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 波束 音频通道 预处理 自动语音识别 混响 去除 分区 过滤音频信号 预处理流水线 输出接口 外部实体 音频信号 噪声水平 远场 | ||
本文描述了用于自动语音识别预处理的系统和技术。首先,可以获得多个音频通道。然后,可以从音频通道去除混响。在去除混响之后,可以将多个音频通道划分为诸波束。可以基于噪声水平选择与诸波束中的波束对应的分区。可以从所选分区过滤音频信号。经过滤的音频信号可以经由预处理流水线的输出接口被提供给外部实体。
本专利申请要求2016年12月22日提交的美国申请序列第15/388,147号的优先权权益,该申请要求2016年6月15日提交的发明名称为“远场自动语音识别”的美国临时申请序列第62/350,507号的优先权权益,两者通过引用整体结合于此。
技术领域
这里描述的实施例总体上涉及自动语音识别(ASR),更具体地涉及改进ASR预处理。
背景技术
ASR涉及用于理解人类语言的基于机器的技术集合。ASR是跨学科的,通常涉及麦克风、模数转换、频率处理、数据库和人工智能技术,用于将口语单词转换为不仅是人类说话者所说的内容(例如,抄本)而且是人类说话者所表达的意思(例如,语义理解)的文本或机器可读的表示。远场ASR涉及降低在距麦克风或麦克风阵列比传统意义上在ASR处理流水线中所考虑的情况更远的情况下进行的讲话中的字错误率(WER)。这种距离通常会降低信噪比(SNR),从而增加传统ASR系统的WER。如本文中所使用,远场ASR涉及距麦克风超过半米的距离。
附图说明
在附图中(这些附图不一定是按比例绘制的),相同的数字可以描述不同视图中的类似的组件。具有不同的字母后缀的相同的数字可以表示类似组件的不同实例。附图一般通过示例的方式而不是限制的方式来图示在本文档中所讨论的各实施例。
图1是根据实施例的智能家庭网关外壳的示例。
图2是根据实施例的用于远场自动语音识别预处理的系统的示例的框图。
图3图示了根据实施例的基于相位的波束形成(PBF)方向性图案。
图4是根据实施例的针对不同类型的噪声的远场ASR WER改善的曲线图。
图5图示了根据实施例的用于自动语音识别预处理的方法的示例。
图6是图示出可以在其上实现一个或多个实施例的机器的示例的框图。
具体实施方式
本文中的实施例和示例总体上描述了用于自动语音识别预处理的多个系统、设备和技术。然而,应当理解,这些系统、设备和技术是说明基本概念的示例。
图1是根据实施例的智能家庭网关105的示例。如图所示,外壳顶上的圆圈是管腔110,该管腔110后面是被容纳的麦克风(如图所示,有八个麦克风)。虚线示出了处于线性布置115的麦克风以及处于圆形布置120的麦克风。本文中描述的许多示例以相对于设备105的这些双重布置(例如,线性115和圆形120)操作。尽管这里的设备105采用智能家居网关的形式,但是可以设想其他配置,诸如台式或膝上型计算机配置、冰箱或其他设备等。
导致ASR的远场性能下降的因素可能包括由于混响、回声、噪声或幅度损失中的一些或所有引起的语音信号质量降级。例如,从几个实验中,发现了与远场ASR相关的四个问题:混响;回声;噪声;和幅度损失。可以通过智能地对各种处理技术进行排序来减轻这些因素中的一个或所有因素的影响。例如,混响(例如,产生混响)减少使得能够使用不是设计用于在混响条件下工作的波束形成器和降噪(NR)技术。在另一个示例中,声学回声消除(AEC)减少了由内部扩音器产生的回声。此外,例如,波束形成器和另外的后过滤模块降低了噪声水平。自动增益控制(AGC)设备抵消幅度损失。总的来说,在所描述的远场预处理流水线中使用的处理的独特的组合和顺序实现了准确的远场ASR。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于英特尔公司,未经英特尔公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201780029587.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:抑制或减少风湍流效应
- 下一篇:语音增强方法、装置、设备及存储介质





