|
钻瓜专利网为您找到相关结果 4个,建议您 升级VIP下载更多相关专利
- [发明专利]大规模自组织麦克风阵列下帧级多通道的说话人确认方法-CN202111576469.6在审
-
张晓雷;梁成栋;姚嘉迪
-
西北工业大学;西北工业大学深圳研究院
-
2021-12-22
-
2022-05-13
-
G10L17/06
- 本发明公开了一种大规模自组织麦克风阵列下帧级多通道的说话人确认方法,在单通道说话人确认系统的池化层之前加入时空处理块,分别建模通道内、通道间以及跨时间的上下文关系,进一步提升远场ASV的性能。包括如下步骤:1)在池化层之前加入由跨帧处理层(Cross‑Frame Processing Layer,CFL)和跨通道处理层(Cross‑Channel Processing Layer,CCL)组成的时空处理块;2)为了使噪声通道的通道权重为零,将跨通道处理层的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线33%的等错误率(EER);在Libri‑adhoc40数据集上的结果表明,STB的多通道ASV系统实现了低于oracle one‑best基线27%的等错误率,同时也实现了低于话语级跨通道自注意力ASV系统9%的等错误率,达到了优越的性能。
- 大规模组织麦克风阵列下帧级多通道说话确认方法
- [发明专利]自组织麦克风阵列下基于注意力的多通道说话人确认方法-CN202110843196.0在审
-
张晓雷;梁成栋;姚嘉迪
-
西北工业大学;西北工业大学深圳研究院
-
2021-07-26
-
2021-11-12
-
G10L17/22
- 本发明公开了一种自组织麦克风阵列下基于注意力的多通道说话人确认方法,在单通道自动说话人确认系统的基础上,加入通道间处理模块,使其在自组织麦克风阵列下进行远场声纹确认。包括如下步骤:1)在单通道ASV系统的池化层之后加入了基于残差自注意力的通道间处理层和全局融合层以充分利用多通道信息进行说话人识别:通道间处理层旨在学习通道权重,全局融合层融合所有通道的信息;2)为了使噪声通道的通道权重为零,将残差自注意模块中的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明,Sparsemax的多通道ASV系统实现了低于oracle one‑best基线20%多的等错误率;在Libri‑adhoc40数据集上的结果表明,Sparsemax的多通道ASV系统实现了低于oracle one‑best基线30%多的EER,实现了优越的性能。
- 组织麦克风阵列基于注意力通道说话确认方法
|