[发明专利]基于神经网络的语音端点检测方法、装置、设备及介质有效
| 申请号: | 202011309613.5 | 申请日: | 2020-11-20 |
| 公开(公告)号: | CN112489677B | 公开(公告)日: | 2023-09-22 |
| 发明(设计)人: | 郑振鹏;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
| 主分类号: | G10L25/30 | 分类号: | G10L25/30;G10L25/87;G10L25/51;G10L25/03 |
| 代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 涂年影 |
| 地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 神经网络 语音 端点 检测 方法 装置 设备 介质 | ||
1.一种基于神经网络的语音端点检测方法,其特征在于,包括:
获取样本语音文件,并对所述语音文件按照预设长度进行分帧处理,得到语音分帧;
根据傅里叶变换的方式,将所述语音分帧的时域信号转换为频域信号,得到基础语音分帧;
计算所述基础语音分帧的能量谱,根据所述能量谱计算梅尔倒频谱,并选取符合预设频谱范围的基础语音分帧,且对所述符合预设频谱范围的基础语音分帧进行对数运算,得到语音特征,其中,所述语音特征包含特征信息;
对每帧所述语音特征进行分配N帧上下文特征信息,得到特征矩阵,其中,N为正整数;
通过神经网络模型对所述特征矩阵进行特征处理,得到一维特征向量,并对所述一维特征向量进行语音帧的序列信息的学习处理,得到预测值;
计算所述预测值与真实语音值的损失函数值,并根据所述损失函数值更新神经网络模型的网络参数,得到训练好的神经网络模型;
获取待检测的语音文件,并对所述待检测的语音文件进行声学特征提取,得到待检测的语音文件的语音特征;
将所述待检测的语音文件的语音特征输入到所述训练好的神经网络模型中,得到预测结果。
2.根据权利要求1所述的基于神经网络的语音端点检测方法,其特征在于,所述通过神经网络模型对所述特征矩阵进行特征处理,得到一维特征向量,并对所述一维特征向量进行语言帧的序列信息进行学习处理,得到预测值,包括:
将所述特征矩阵输入到所述神经网络模型中,通过自适应感受野注意力模块对所述特征矩阵进行向量处理,得到特征向量;
通过将所述特征向量输入到全连接层网络中,对所述特征向量进行归一化处理,得到目标特征矩阵;
按照Reshape函数的方式,将每帧所述目标特征矩阵转化成一维向量,得到所述一维特征向量;
通过将所述一维特征向量输入双向短时记忆神经网络模块中,进行语音帧的序列信息的学习处理,得到所述预测值。
3.根据权利要求2所述的基于神经网络的语音端点检测方法,其特征在于,所述将所述特征矩阵输入到所述神经网络模型中,通过自适应感受野注意力模块对所述特征矩阵进行向量处理,得到特征向量,包括:
将所述特征矩阵输入到所述神经网络模型中,通过自适应感受野注意力模块将所述特征矩阵转化成感受野的特征矩阵,作为基础特征矩阵;
按照门控函数映射的方式,将所述基础特征矩阵转化成同一大小的基础特征矩阵;
对所述同一大小的基础特征矩阵进行全局最大池化和全局平均池化处理,得到全局最大池化向量和全局平均池化向量,并将所述全局最大池化向量和所述全局平均池化向量作为所述特征向量。
4.根据权利要求3所述的基于神经网络的语音端点检测方法,其特征在于,所述通过将所述特征向量输入到全连接层网络中,对所述特征向量进行归一化处理,得到目标特征矩阵,包括:
通过将所述特征向量输入到全连接层网络中,对应得到最大池化系数向量和平均池化系数向量;
将所述最大池化系数向量和所述平均池化系数向量进行相加,得到系数向量累加值,并对所述系数向量累加值进行归一化处理,得到归一化系数;将所述归一化系数与所述同一大小的基础特征矩阵进行相乘,得到所述目标特征矩阵。
5.根据权利要求2所述的基于神经网络的语音端点检测方法,其特征在于,所述通过将所述一维特征向量输入双向短时记忆神经网络模块中,进行语音帧的序列信息进行学习处理,得到所述预测值,包括:
通过将所述一维特征向量输入双向短时记忆神经网络模块中,对每帧所述一维特征向量的语音帧的序列信息进行学习处理,得到语音帧结果;
将每帧所述语音帧结果对应输入到全连接层神经网络分类器中,得到所述预测值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011309613.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢板切割设备
- 下一篇:一种基于信用的支持数据包交换的比例公平调度方法





