“姚嘉迪”申请（专利权）人搜索_中国专利权人_发明人_技术持有人_科研专家_钻瓜专利网

钻瓜专利网为您找到相关结果4个，建议您升级VIP下载更多相关专利

[发明专利]基于并行分支结构的捕捉局部和全局特征说话人确认方法-CN202310360894.4在审
发明人：张晓雷;姚嘉迪;景瑞昊 -专利权人：西北工业大学深圳研究院;西北工业大学
申请日： 2023-04-06 - 公布日： 2023-07-21 - 主分类号： G10L17/02 文献下载
摘要：本发明公开了一种基于并行分支结构的捕捉局部和全局特征说话人确认方法，采用Branch模块来构建两个并行分支结构，分别捕获ASV任务中说话人的局部和全局特征信息；其中，一个分支采用多头自注意力机制来捕捉长范围依赖关系，另一个分支利用SE‑Res2Block模块提取局部特征，此外采用了不同的融合机制来增强Branch‑ECAPA‑TDNN的性能。最终在VoxCeleb和CN‑Celeb数据集上进行了大量实验，结果表明了提出的方法的有效性。
基于并行分支结构捕捉局部全局特征说话确认方法

[发明专利]大规模自组织麦克风阵列下帧级多通道的说话人确认方法-CN202111576469.6在审
发明人：张晓雷;梁成栋;姚嘉迪 -专利权人：西北工业大学;西北工业大学深圳研究院
申请日： 2021-12-22 - 公布日： 2022-05-13 - 主分类号： G10L17/06 文献下载
摘要：本发明公开了一种大规模自组织麦克风阵列下帧级多通道的说话人确认方法，在单通道说话人确认系统的池化层之前加入时空处理块，分别建模通道内、通道间以及跨时间的上下文关系，进一步提升远场ASV的性能。包括如下步骤：1)在池化层之前加入由跨帧处理层(Cross‑Frame Processing Layer,CFL)和跨通道处理层(Cross‑Channel Processing Layer,CCL)组成的时空处理块；2)为了使噪声通道的通道权重为零，将跨通道处理层的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明，STB的多通道ASV系统实现了低于oracle one‑best基线33％的等错误率(EER)；在Libri‑adhoc40数据集上的结果表明，STB的多通道ASV系统实现了低于oracle one‑best基线27％的等错误率，同时也实现了低于话语级跨通道自注意力ASV系统9％的等错误率，达到了优越的性能。
大规模组织麦克风阵列下帧级多通道说话确认方法

[发明专利]自组织麦克风阵列下基于注意力的多通道说话人确认方法-CN202110843196.0在审
发明人：张晓雷;梁成栋;姚嘉迪 -专利权人：西北工业大学;西北工业大学深圳研究院
申请日： 2021-07-26 - 公布日： 2021-11-12 - 主分类号： G10L17/22 文献下载
摘要：本发明公开了一种自组织麦克风阵列下基于注意力的多通道说话人确认方法，在单通道自动说话人确认系统的基础上，加入通道间处理模块，使其在自组织麦克风阵列下进行远场声纹确认。包括如下步骤：1)在单通道ASV系统的池化层之后加入了基于残差自注意力的通道间处理层和全局融合层以充分利用多通道信息进行说话人识别：通道间处理层旨在学习通道权重，全局融合层融合所有通道的信息；2)为了使噪声通道的通道权重为零，将残差自注意模块中的softmax算子改进为sparsemax算子。在Libri‑adhoc‑simu数据集上的结果表明，Sparsemax的多通道ASV系统实现了低于oracle one‑best基线20％多的等错误率；在Libri‑adhoc40数据集上的结果表明，Sparsemax的多通道ASV系统实现了低于oracle one‑best基线30％多的EER，实现了优越的性能。
组织麦克风阵列基于注意力通道说话确认方法

[发明专利]一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统-CN202110661470.2在审
发明人：张晓雷;徐梦龙;姚嘉迪 -专利权人：西北工业大学;西北工业大学深圳研究院
申请日： 2021-06-15 - 公布日： 2021-09-17 - 主分类号： G10L15/02 文献下载
摘要：本发明为一种编码器及采用该编码器的基于局部生成式注意力机制的端到端语音识别系统，本发明属于端到端语音识别技术，用低复杂度的生成式注意力计算代替点积式的注意力机制，减少了计算复杂度，同时提高了语音识别的正确率；所提出一种基于DSA的语音识别模型来减少计算复杂度。我们进一步提出了局部DSA，将DSA的注意范围限制在当前语音帧周围的若干帧之内。本发明将LDSA与SA结合起来让模型具有同时提取局部和全局信息的能力。在Ai‑shell1普通话语音识别语料库上的实验结果显示，所提出的LDSA‑Transformer实现了6.49％的字符错误率。相比于SA‑Transformer，LDSA‑Transformer正确率更高，计算复杂度更低。所提出的组合注意力方法在参数量和计算复杂度与SA‑Transformer大致相同的情况下，取得了显著优于后者的正确率。
一种编码器采用基于局部生成注意力机制端到端语音识别系统