[发明专利]一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统在审
| 申请号: | 201910808412.0 | 申请日: | 2019-08-29 |
| 公开(公告)号: | CN110501673A | 公开(公告)日: | 2019-11-26 |
| 发明(设计)人: | 刘宏;庞程;丁润伟;杨冰;袁佩佩 | 申请(专利权)人: | 北京大学深圳研究生院 |
| 主分类号: | G01S5/22 | 分类号: | G01S5/22;G06F17/14;G06N3/04;G06N3/08 |
| 代理公司: | 11200 北京君尚知识产权代理有限公司 | 代理人: | 邱晓锋<国际申请>=<国际公布>=<进入 |
| 地址: | 518055 广东省深*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 时频 双耳 声源 卷积神经网络 神经网络 俯仰角 转向角 有效地 线索 噪声 空间方向 声源定位 双耳信号 有效融合 鲁棒性 共享 多帧 建模 可用 场景 融合 输出 学习 | ||
1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,其步骤包括:
1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
2.如权利要求1所述的方法,其特征在于,步骤1)在时频域提取双耳相位差和双耳能量差作为时频双耳特征线索。
3.如权利要求1所述的方法,其特征在于,步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模,所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层,线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。
4.如权利要求3所述的方法,其特征在于,输入的时频双耳特征线索首先经过第一个二维卷积层的处理;然后,一个批标准化层通过归一化第一个二维卷积层输出的特征提升网络的稳定性;在对特征进行批标准化处理后,第二个二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索;接下来,处理后的特征通过第三个二维卷积层以及其后的批标准化层、第四个二维卷积层以及其后的批标准化层,进行两次相同的二维卷积和批标准化处理;ReLU激活函数在每一次批标准化操作后进行;最后,一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。
5.如权利要求4所述的方法,其特征在于,所述第一个二维卷积层的卷积核大小为5×5,步幅为3,滤波器数量为32;所述第二个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为64;所述第三个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为96;所述第四个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为128。
6.如权利要求1所述的方法,其特征在于,步骤3)采用多任务神经网络实现声源空间方向的定位,所述多任务神经网络包含两个分支:用于转向角估计的神经网络分支和用于俯仰角估计的神经网络分支。
7.如权利要求6所述的方法,其特征在于,所述用于转向角的估计的神经网络分支包含四个全连接层,其被用于融合由时频卷积神经网络生成的共享特征中的局部结构以用于转向角的估计,该神经网络分支输出的大小为候选转向角的数量;所述用于俯仰角的估计的神经网络分支同样包含四个全连接层,该分支被用于融合由时频卷积神经网络生成的共享特征中的局部结构以用于俯仰角的估计,该神经网络分支输出的大小为候选俯仰角的数量。
8.如权利要求7所述的方法,其特征在于,将两个分支的输出分别通过两个softmax层,该两个softmax层的输出被分别看作输入的时频双耳特征线索相对候选转向角和俯仰角的后验概率,通过寻找最大的后验概率所对应的候选转向角和俯仰角来确定最终的估计。
9.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统,其特征在于,包括:
双耳特征线索提取模块,用于提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
双耳特征线索融合模块,用于利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
声源空间方向估计模块,用于基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
10.一种计算机,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~8中任一权利要求所述方法的各步骤的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学深圳研究生院,未经北京大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910808412.0/1.html,转载请声明来源钻瓜专利网。





