[发明专利]一种音频信号的处理方法、装置、设备及介质有效

申请号：	202010273091.1	申请日：	2020-04-09
公开（公告）号：	CN111477233B	公开（公告）日：	2021-02-09
发明（设计）人：	奚少亨;冯大航;陈孝良	申请（专利权）人：	北京声智科技有限公司
主分类号：	G10L15/26	分类号：	G10L15/26;G10L21/0272;G10L21/0316
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郝志国
地址：	100080 北京市海淀区北四***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种音频信号处理方法装置设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明关于一种音频信号的处理方法、装置、设备及介质，应用于电梯、智能汽车等语音控制场景，用以从包含多个对象音频信号中分离每个对象语音信号，提升分离对象语音信号效率，优化语音识别过程。方法包括：获取多路音频信号，多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值；根据每个对象的各帧语音信号在多个预设频率的幅值，确定每个对象的语音音频。

技术领域

本发明涉及语音处理领域，尤其涉及一种音频信号的处理方法、装置、设备及介质。

背景技术

在语音控制领域中，通常同一时间由一个用户发出语音控制命令，根据采集该用户的音频确定具体的命令意图。但在共享语音控制权限的场景中(例如，电梯场景)，多个用户均享有语音控制权限，若出现多个用户同一时间发出语音控制命令，被采集的音频中包含了多个用户的语音控制命令，因无法确定每个用户的语音控制命令音频，造成无法确定每个用户的具体命令意图，还需要确认多个用户逐个发出语音控制命令，使得处理效率低下。因此，亟需一种确定包含多个用户语音的音频中每个用户语音音频的解决方案。

发明内容

本发明提供一种音频信号的处理方法、装置、设备及介质，用以从包含多个对象音频信号中分离每个对象语音信号，提升分离对象语音信号效率，优化语音识别过程。

本发明的技术方案如下：

根据本发明实施例的第一方面，提供一种音频信号的处理方法，包括：

获取多路音频信号，多路音频信号是利用设置在同一场景中的多个音频采集设备同时采集的，且每路音频信号中包含多个对象的语音信号；

基于预先确定的每路音频信号中各帧音频信号在多个预设频率的幅值，确定各帧音频信号的幅值矩阵；

根据各帧音频信号的幅值矩阵、预先确定的各帧音频信号的解混矩阵，确定对象数量以及每个对象的各帧语音信号在多个预设频率的幅值；

根据每个对象的各帧语音信号在多个预设频率的幅值，确定每个对象的语音音频。

一种可能的实施方式中，本发明实施例提供的音频信号的处理方法中，各帧音频信号的解混矩阵，采用如下步骤确定：

确定每路音频信号中首帧音频信号的中间解混矩阵，并基于每路音频信号中首帧音频信号的中间解混矩阵，确定首帧音频信号的解混矩阵；

确定每路音频信号中非首帧音频信号的中间解混矩阵，并基于每路音频信号中非首帧音频信号的中间解混矩阵，确定非首帧音频信号的解混矩阵。

一种可能的实施方式中，本发明实施例提供的音频信号的处理方法中确定每路音频信号中首帧音频信号的中间解混矩阵，包括：