[发明专利]基于局部卷积块注意力网络的语音端点检测方法及系统有效
申请号: | 202110673028.1 | 申请日: | 2021-06-17 |
公开(公告)号: | CN113409827B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 张鹏;李姝;李晔;冯涛;汪付强 | 申请(专利权)人: | 山东省计算中心(国家超级计算济南中心) |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/30;G10L25/18;G06N3/08;G06N3/04;G06K9/62;G06K9/00;G06F16/583;G06F16/51 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 祖之强 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 卷积 注意力 网络 语音 端点 检测 方法 系统 | ||
1.基于局部卷积块注意力网络的语音端点检测方法,其特征在于,包括:
获取语音数据的声谱图数据;
利用局部敏感哈希算法为声谱图数据中的每一帧数据提取N个近邻帧,得到帧级的局部声谱图数据;
将局部声谱图数据输入局部卷积块注意力网络中,经过卷积模块进行特征提取,在每个卷积块之后依次通过通道注意力模块、频谱注意力模块以及时间注意力模块进行注意力操作,得到增强的数据;
将增强的数据输入分类器中,进行语音/非语音帧检测,得到预测结果;
所述得到帧级的局部声谱图数据的过程包括:
选取一组哈希函数族,然后将每帧频谱向量映射为一个整型向量;
将这个整型向量映射到哈希表的某一个位上,得到哈希表索引,其中每个哈希表索引对应一个哈希桶;
根据这个整型向量的哈希值,得到频谱向量在哈希桶内的关键字;
将这个整型向量所代表的帧频谱数据在所有数据中的位置索引放入哈希表索引所对应的哈希桶内,直到所有的帧频谱数据索引都存放完毕;
对于每个查询,得到其哈希桶索引以及在桶内的关键字,查找该哈希桶内是否存在此关键字,若是,从哈希桶中取出所有关键字所对应的帧频谱数据的位置索引;
取出位置索引对应的帧频谱数据,并将这些数据与该查询的欧式距离由小到大排列,取出距离最短的N个帧频谱数据,作为局部声谱图输入;
所述通道注意力模块包括:
将局部声谱图数据输入到卷积块模块进行特征提取;
沿通道维度,将提取的特征进行最大池化和平均池化操作,再将得到的最大通道特征图和平均通道特征图经过神经网络,得到聚合的通道特征图;
采用sigmod(·)函数得到通道特征图的注意力分值,将通道特征图的注意力分值与卷积块输出相乘,得到通道注意力模块的输出;
所述频谱注意力模块包括:
将通道注意力模块输出的数值进行通道维度压缩,得到第一通道压缩特征图;
沿频率维度,分别将第一通道压缩特征图进行最大池化和平均池化操作,再将得到的最大频谱特征图和平均频谱特征图经过神经网络,得到聚合的频谱特征图;
采用sigmod(·)函数得到频谱特征图的注意力分值,将频谱特征图的注意力分值与通道注意力模块的输出相乘,得到频谱注意力模块的输出;
所述时间注意力模块包括:
将频谱注意力模块输出的数值进行通道维度压缩,得到第二通道压缩特征图;
沿时间维度,分别将第二通道压缩特征图进行最大池化和平均池化操作,再将得到的最大时间特征图和平均时间特征图经过神经网络,得到聚合的时间特征图;
采用sigmod(·)函数得到时间特征图的注意力分值,将时间特征图的注意力分值与频谱注意力模块的输出相乘,得到时间注意力模块的输出;
在每个卷积块注意力操作完成之后,设置与卷积块初始输入的残差连接;判断是否达到网络的最大卷积块数;若是,则得到增强的数据;否则迭代更新通道注意力模块、频谱注意力模块以及时间注意力模块的注意力操作。
2.根据权利要求1所述的基于局部卷积块注意力网络的语音端点检测方法,其特征在于,所述获取语音数据的声谱图数据包括:
将语音数据进行分帧、加窗;
对加窗后的每一帧语音数据进行快速傅里叶变换得到二维声谱图数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东省计算中心(国家超级计算济南中心),未经山东省计算中心(国家超级计算济南中心)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110673028.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:预制节段梁辅助成型装置
- 下一篇:智能棒材钢筋数控绕筋成型机