[发明专利]一种多麦远场语音唤醒方法及系统有效
申请号: | 201911282202.9 | 申请日: | 2019-12-13 |
公开(公告)号: | CN111179909B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 贾小月;贺东华;胡君;方标新;刘丹 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/22;G10L25/24;G10L25/30 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 姜丽楼 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多麦远场 语音 唤醒 方法 系统 | ||
本发明公开了一种多麦远场语音唤醒方法及系统,所述方法包括:采集获得多麦远场数据;根据所述多麦远场数据通过预设规则提取获得多麦远场特征;将所述多麦远场特征输入至预先训练的远场声学模型中,获得对应每个音素的标签;将所述每个音素的标签通过加权自动状态机进行识别,通过识别后生成唤醒参数;将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述唤醒阈值,则执行唤醒任务;所述方法及系统去除了传统的信号处理模块,又保证了唤醒能力的不下降,大大的减少了开发成本,减轻了语音控制智能硬件的造价成本,有利于语音控制智能硬件的发展。
技术领域
本发明涉及仿真控制领域,更具体地,涉及一种多麦远场语音唤醒方 法及系统。
背景技术
智能硬件的潮流带动了远场唤醒的需求,比如百度音箱和小雅音箱, 在与其交互时,用户都需要先说一个唤醒词唤醒它,比如小度小度,一般 人们都是在远场使用它,即使用远场语音唤醒。远场语音唤醒有两条解决 方案:第一个方案是训练近场唤醒声学模型,多麦语音信号经过传统的信 号处理算法声源定位,语音增强去混响,成单路近场语音,进入近场唤醒 声学模型,近场唤醒打分模块,判断是否唤醒。这种方案对定位算法算法 和语音增强算法要求很高,唤醒片段一般很短,要依靠这么少的片段定位, 并且做噪声估计,难度很大。第二个方案是训练单路远场唤醒声学模型, 多麦语音信号取其中能量最大的一路,进入远场唤醒声学模型,远场唤醒 模块打分,判断是否唤醒。这种方案想法非常简单,相当于损失多麦信息, 把压力完全交给了声学模型,效果较差。
发明内容
为了解决背景技术存在的现有的远场语音唤醒算法要求高、实现难度 大、效果差的问题,本发明提供了一种多麦远场语音唤醒方法及系统;所 述方法及系统通过近场数据模拟仿真远场数据,通过近场数据训练获得音 素标签,进而训练获得远场声学模型,通过远场声学模型实现远场语音唤 醒;所述一种多麦远场语音唤醒方法包括:
采集获得多麦远场数据;
根据所述多麦远场数据通过预设规则提取获得多麦远场特征;
将所述多麦远场特征输入至预先训练的远场声学模型中,获得对应每 个音素的标签;
将所述每个音素的标签通过加权自动状态机进行识别,通过识别后生 成唤醒参数;
将所述唤醒参数与预设的唤醒阈值进行对比,若超过所述唤醒阈值, 则执行唤醒任务。
进一步的,所述根据所述多麦远场数据通过预设规则提取获得多麦远 场特征,包括:
将所述多麦远场数据中每个麦克风对应的远场音频数据通过其对应的 预设的空间滤波器分别进行滤波,获得多路滤波音频;
对所述多路滤波音频进行特征提取,获得每路滤波音频对应的音频特 征集合;所述音频特征集合包括按时刻排列的至少一个音频特征;
对所述每路滤波音频对应的音频特征集合中相同时刻的音频特征进行 合并,获得一个目标音频特征集合。
进一步的,所述预先训练的远场声学模型的训练方法包括:
根据采集的近场数据仿真获得多麦远场数据;
对所述多麦远场数据进行特征提取,获得多麦远场特征;
根据采集的近场数据通过预设规则迭代训练获得近场声学训练模型, 进而获得近场声学训练模型下的音频标签;所述近场声学训练模型下的音 频标签与远程声学模型的音频标签相同;
根据所述多麦远场特征以及所述音频标签训练获得远场声学模型。
进一步的,所述根据采集的近场数据仿真获得多麦远场数据,包括:
采集获取近场数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911282202.9/2.html,转载请声明来源钻瓜专利网。