[发明专利]鸟声识别模型的构建方法、装置、计算机设备及存储介质有效
申请号: | 201910390381.1 | 申请日: | 2019-05-10 |
公开(公告)号: | CN110120224B | 公开(公告)日: | 2023-01-20 |
发明(设计)人: | 吴冀平;亢祖衡;彭俊清;王健宗 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/04;G10L17/18;G10L25/24 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 黄章辉 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 鸟声 识别 模型 构建 方法 装置 计算机 设备 存储 介质 | ||
1.一种鸟声识别模型的构建方法,其特征在于,包括:
获取鸟声样本,所述鸟声样本包括声音片段,每个鸟声样本与一个鸟名标签对应;
从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图;
对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图;
将所述特征图进行声纹特征编码处理,获得声纹特征向量;
将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络。
2.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图之前,包括:
获取包含鸟声的音频文件;
根据预设规则从所述包含鸟声的音频文件中提取鸟叫的声音片段;
基于所述声音片段生成鸟声样本,每个鸟声样本与一个鸟名标签对应。
3.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述从所述声音片段中提取梅尔频率倒谱特征,获得所述声音片段的多个频谱图,包括:
将所述声音片段按第一指定时长切割为多个待处理音频帧;
使用梅尔特征滤波器对每一帧所述待处理音频帧进行特征提取,获得每个所述待处理音频帧对应的一维特征向量;
按指定重叠率对所有所述一维特征向量进行分批,基于每个批次的所述一维特征向量生成第二指定时长的所述频谱图。
4.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述对所述多个频谱图进行特征提取和降维处理,获得所述声音片段对应的特征图,包括:
使用多层卷积神经网络对所述频谱图进行降维处理;
使用线性整流函数对降维后的数据进行处理,获得与所述声音片段所对应的多个特征图。
5.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述将所述特征图进行声纹特征编码处理,获得声纹特征向量,包括:
将所述特征图转化为多个一维向量;
将所述特征图转化出的一维向量按顺序输入门控循环单元循环神经网络进行特征编码,获得所述特征图对应的声纹特征向量。
6.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络,包括:
将所述声纹特征向量输入所述胶囊网络;
获得所述胶囊网络的输出向量;
根据所述输出向量计算训练模型的损失函数,获得所述损失函数的计算结果;
判断所述损失函数的计算结果是否满足预设要求;
若所述损失函数的计算结果不满足预设要求,则根据所述损失函数的计算结果调整所述胶囊网络的参数,并使用从鸟声样本中提取出的声纹特征向量继续对所述胶囊网络进行训练;
若所述损失函数的计算结果满足预设要求,则确定所述胶囊网络训练完毕,并将包含训练完毕后的胶囊网络的模型确定为所述鸟声识别模型。
7.如权利要求1所述的鸟声识别模型的构建方法,其特征在于,所述将所述声纹特征向量输入胶囊网络进行训练,训练完毕后获得鸟声识别模型,所述鸟声识别模型包括训练完毕后的所述胶囊网络之后,还包括:
获取待识别的鸟声音频;
将所述待识别的鸟声音频输入所述鸟声识别模型;
获取所述鸟声识别模型输出的鸟名标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910390381.1/1.html,转载请声明来源钻瓜专利网。