[发明专利]基于深度迁移学习与XGBoost的混合鸟鸣识别方法在审
申请号: | 202210536031.3 | 申请日: | 2022-05-17 |
公开(公告)号: | CN114863937A | 公开(公告)日: | 2022-08-05 |
发明(设计)人: | 刘玮;张飞;张彦铎;卢涛;陈灯;栗娟;邵俊杰;华鑫;张鹏;王凯 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G10L17/26 | 分类号: | G10L17/26;G10L17/02;G10L17/04;G10L17/18 |
代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 樊凡 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 迁移 学习 xgboost 混合 鸟鸣 识别 方法 | ||
1.基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:包括以下步骤:
S1:收集自然环境下的多种鸟类鸣声,每种鸟类鸣声信号包括多个时间序列相同的鸣声片段;建立基于自然场景设计和收集的鸟鸣音频库;
S2:对鸟鸣音频库的每个鸣声片段进行预处理获得短时平稳的鸣声信号,将每帧鸣声信号通过快速傅里叶变换后取绝对值的平方得到能量谱图;
S3:将能量谱图经过64阶梅尔滤波器映射为Mel频谱图,作为深度迁移学习与XGBoost混合鸟鸣识别模型的输入;对Mel频谱图取对数得到log-Mel频谱图;计算log-Mel频谱图的一阶差分系数和二阶差分系数获得动态声学特征;将一阶差分系数和二阶差分系数与log-Mel频谱图组合成为三维log-Mel频谱图;
S4:采用参数迁移微调在ImageNet数据集上预训练的深度卷积神经网络VGG16模型,得到针对鸟鸣信息的特征提取器,并提取三维log-Mel时频谱图的高维隐式特征;
S5:将三维log-Mel时频谱图的高维隐式特征按照一定比例划分为训练集、测试集和验证集;采用训练集训练XGBoost分类器,并在验证集上调整XGBoost分类器的参数,最后在测试集上将高维隐式特征映射为鸟类物种。
2.根据权利要求1所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S1中,每个鸟鸣片段的时间序列长度为2秒,采样率为22.05khz,存储格式为.wav。
3.根据权利要求2所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S2中,具体步骤为:
S21:将2秒的鸟鸣片段分割为1.5秒并设置1秒的重叠保证鸣声的连续性;
S22:对分割后的鸟鸣信号进行分帧,设置帧长为2048个采样点,帧移为512个采样点得到短时平稳信号;
S23:设n为采样点的取值,N为帧长,则汉明窗计算公式ω(n)为:
设每帧信号为s(n),对分帧后的每帧信号乘以汉明窗进行加窗得到x(n):
x(n)=w(n)·s(n),0≤n≤N-1;
S24:设k是快速傅里叶变换的点数,对加窗后的鸟鸣信号x(n)进行快速傅里叶变换计算各帧的频谱,并对频谱取绝对值的平方,得到用于反映时域和频域特征信息的能量谱:
S25:绘制以时间为横轴、频率为纵轴的能量谱图,通过颜色明暗表示能量高低。
4.根据权利要求3所述的基于深度迁移学习与XGBoost的混合鸟鸣识别方法,其特征在于:所述的步骤S3中,具体步骤为:
S31:64阶梅尔滤波器具有人耳滤波功能,使用64阶梅尔滤波器对能量谱图进行滤波得到大小为64×64的Mel频谱图;
S32:对Mel频谱图取对数得到log-Mel频谱图L(m),log-Mel频谱图L(m)具备静态声学特征;
S33:计算log-Mel频谱图L(m)的一阶差分系数L(m)d和二阶差分系数L(m)dd获得动态声学特征,用于捕捉相邻两帧与相邻三帧之间音频信号的动态关系:
S34:将一阶差分系数L(m)d和二阶差分系数L(m)dd作为log-Mel频谱图L(m)的动态补充特征形成大小为64×64×3的三维log-Mel频谱图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210536031.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:自动白平衡方法、装置和计算机存储介质、电子设备
- 下一篇:发动机进气保护装置