[发明专利]一种多麦远场语音唤醒方法及系统有效

申请号：	201911282202.9	申请日：	2019-12-13
公开（公告）号：	CN111179909B	公开（公告）日：	2023-01-10
发明（设计）人：	贾小月;贺东华;胡君;方标新;刘丹	申请（专利权）人：	航天信息股份有限公司
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/22;G10L25/24;G10L25/30
代理公司：	北京工信联合知识产权代理有限公司 11266	代理人：	姜丽楼
地址：	100195 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种多麦远场语音唤醒方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种多麦远场语音唤醒方法及系统，所述方法包括：采集获得多麦远场数据；根据所述多麦远场数据通过预设规则提取获得多麦远场特征；将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务；所述方法及系统去除了传统的信号处理模块，又保证了唤醒能力的不下降，大大的减少了开发成本，减轻了语音控制智能硬件的造价成本，有利于语音控制智能硬件的发展。

技术领域

本发明涉及仿真控制领域，更具体地，涉及一种多麦远场语音唤醒方法及系统。

背景技术

智能硬件的潮流带动了远场唤醒的需求，比如百度音箱和小雅音箱，在与其交互时，用户都需要先说一个唤醒词唤醒它，比如小度小度，一般人们都是在远场使用它，即使用远场语音唤醒。远场语音唤醒有两条解决方案：第一个方案是训练近场唤醒声学模型，多麦语音信号经过传统的信号处理算法声源定位，语音增强去混响，成单路近场语音，进入近场唤醒声学模型，近场唤醒打分模块，判断是否唤醒。这种方案对定位算法算法和语音增强算法要求很高，唤醒片段一般很短，要依靠这么少的片段定位，并且做噪声估计，难度很大。第二个方案是训练单路远场唤醒声学模型，多麦语音信号取其中能量最大的一路，进入远场唤醒声学模型，远场唤醒模块打分，判断是否唤醒。这种方案想法非常简单，相当于损失多麦信息，把压力完全交给了声学模型，效果较差。

发明内容

为了解决背景技术存在的现有的远场语音唤醒算法要求高、实现难度大、效果差的问题，本发明提供了一种多麦远场语音唤醒方法及系统；所述方法及系统通过近场数据模拟仿真远场数据，通过近场数据训练获得音素标签，进而训练获得远场声学模型，通过远场声学模型实现远场语音唤醒；所述一种多麦远场语音唤醒方法包括：

采集获得多麦远场数据；

根据所述多麦远场数据通过预设规则提取获得多麦远场特征；

将所述多麦远场特征输入至预先训练的远场声学模型中，获得对应每个音素的标签；

将所述每个音素的标签通过加权自动状态机进行识别，通过识别后生成唤醒参数；

将所述唤醒参数与预设的唤醒阈值进行对比，若超过所述唤醒阈值，则执行唤醒任务。

进一步的，所述根据所述多麦远场数据通过预设规则提取获得多麦远场特征，包括：

将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的预设的空间滤波器分别进行滤波，获得多路滤波音频；

对所述多路滤波音频进行特征提取，获得每路滤波音频对应的音频特征集合；所述音频特征集合包括按时刻排列的至少一个音频特征；

对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行合并，获得一个目标音频特征集合。

进一步的，所述预先训练的远场声学模型的训练方法包括：