[发明专利]声音信号识别方法及装置在审
申请号: | 202110572969.6 | 申请日: | 2021-05-25 |
公开(公告)号: | CN113314135A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 何琪琪;侯海宁 | 申请(专利权)人: | 北京小米移动软件有限公司;北京小米松果电子有限公司 |
主分类号: | G10L21/0208 | 分类号: | G10L21/0208;G10L21/0216 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 姜超 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 信号 识别 方法 装置 | ||
本公开是关于一种声音信号识别方法及装置。涉及智能语音交互技术,解决了强干扰低信噪比场景下声源定位准确率低、语音识别质量较差的问题。该方法包括:获取至少两个采集点分别对至少两个声源采集的原始观测数据;对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;根据所述后验域估计数据,得到各个声源的信号分量;分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;根据所述波束成形估计信号,得到各个所述声源的时域声源信号。本公开提供的技术方案适用于智能语音系统,实现了高效、抗干扰能力强语音信号识别。
技术领域
本公开涉及智能语音交互技术,尤其涉及一种声音信号识别方法及装置。
背景技术
在物联网、AI时代,智能语音作为人工智能核心技术之一,丰富了人机交互的模式,大大提高智能产品使用的便捷性。
智能产品设备拾音多采用多个麦克风构成的麦克风阵列,应用麦克风波束形成技术或盲源分离技术抑制环境干扰,提高语音信号处理质量,以提高真实环境下的语音识别率。
麦克风波束形成技术需要估计声源方向,另外为了赋予更强的智能性和感知性,一般智能设备会配备指示灯,当与用户交互时将指示灯准确指向用户而非干扰,让用户感觉在与智能设备面对面对话,增强用户的交互体验。基于此,在存在干扰音源的环境中,准确估计用户(也即声源)的方向十分重要。
声源寻向算法一般直接利用麦克风采集得到的数据,使用基于相位变换加权的可控响应功率的声源定位算法(Steered Response Power-Phase Transform,简称SRP-PHAT)等算法进行寻向估计。但这种算法依赖信号的信噪比,在低信噪比下准确率不够高,极容易寻向到干扰音源的方向上,无法准确对有效声源进行定位,进而影响了语音识别的准确性。
发明内容
为克服相关技术中存在的问题,本公开提供一种声音信号识别方法及装置。通过降噪获取后验域数据后,再形成信号分量并经波束成形进一步降噪,实现了高质量的语音识别。
根据本公开实施例的第一方面,提供一种声音信号识别方法,包括:
获取至少两个采集点分别对至少两个声源采集的原始观测数据;
对所述原始观测数据进行第一级降噪处理,得到后验域估计数据;
根据所述后验域估计数据,得到各个声源的信号分量;
分别对各个所述声源的信号分量进行第二级降噪处理,得到波束成形估计信号;
根据所述波束成形估计信号,得到各个所述声源的时域声源信号。
进一步的,对所述原始观测数据进行第一级降噪处理,得到后验域估计数据的步骤包括:
初始化各个频点的分离矩阵及各个声源在各个频点的加权协方差矩阵,所述分离矩阵的行数和列数均为声源的数量;
求取各个采集点处的时域信号,并根据所述时域信号对应的频域信号构建观测信号矩阵;
根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计;
根据所述先验频域估计更新所述加权协方差矩阵;
根据更新后的所述加权协方差矩阵,更新所述分离矩阵;
校正更新后的所述分离矩阵;
根据校正后的所述分离矩阵,对所述原始观测数据进行分离,将分离得到的各个声源的后验域估计数据。
进一步的,根据上一帧的分离矩阵和所述观测信号矩阵,求取当前帧各个声源的先验频域估计的步骤包括:
根据上一帧的分离矩阵对所述观测信号矩阵进行分离,得到当前帧各个声源的先验频域估计。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京小米移动软件有限公司;北京小米松果电子有限公司,未经北京小米移动软件有限公司;北京小米松果电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110572969.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种移动合页
- 下一篇:一种通信信号传输电路及电子设备