[发明专利]基于目标检测的视唱音高检测方法、系统、设备及介质在审
申请号: | 202210656997.0 | 申请日: | 2022-06-10 |
公开(公告)号: | CN115206339A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 许炜;杨未铭;王先科;李雨晴 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G10L21/14 | 分类号: | G10L21/14;G10L21/0232;G10L25/30;G10L25/51;G06K9/00 |
代理公司: | 华中科技大学专利中心 42201 | 代理人: | 彭军芬 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 目标 检测 视唱 音高 方法 系统 设备 介质 | ||
1.一种基于目标检测的视唱音高检测方法,其特征在于,包括:
S1,采样获取视唱音频并转换为二维声谱图,检测所述二维声谱图中各音符的起始时刻、结束时刻和音符下边界代表的频点索引;
S2,以第一音符的音符下边界代表的频点索引对应频率为中心,向上、向下分别容纳设定数量的频点为目标,确定所述第一音符的频点框的顶边频率值和底边频率值,所述第一音符为所述二维声谱图中的任一音符;
S3,在所述第一音符的顶边频率值和底边频率值之间的频率范围内,对位于所述第一音符的起始时刻和结束时刻之间的二维声谱图中的每一帧进行峰值搜索,得到每一帧峰值对应的频率值;
S4,对所述第一音符中每一帧峰值对应的频率值求和取平均,得到所述第一音符音高对应的平均频率,根据所述第一音符音高对应的平均频率计算所述第一音符的音高。
2.如权利要求1所述的基于目标检测的视唱音高检测方法,其特征在于,所述第一音符的音符下边界代表的频点索引对应频率为:
其中,fbottom为所述第一音符的音符下边界代表的频点索引对应频率;fmin为所述二维声谱图的最小频率值;n_bins为所述第一音符的音符下边界代表的频点索引;bpo1为第一预设参数,表示每一音高对应两个频点的二维声谱图的八度内频点数。
3.如权利要求2所述的基于目标检测的视唱音高检测方法,其特征在于,所述第一音符的频点框的顶边频率值和底边频率值分别为:
其中,fhigh为所述第一音符的频点框的顶边频率值;flow为所述第一音符的频点框的底边频率值;bpo2为第二预设参数,表示每一音高对应五个频点的二维声谱图的八度内频点数。
4.如权利要求1所述的基于目标检测的视唱音高检测方法,其特征在于,所述第一音符的音高为:
p=69+12×log2(fpitch/440)
其中,p为所述第一音符的音高,fpitch为所述第一音符音高对应的平均频率。
5.如权利要求1所述的基于目标检测的视唱音高检测方法,其特征在于,所述采样获取视唱音频并转换为二维声谱图包括:
采样获取所述视唱音频并进行音频降噪处理,利用常数Q变换将降噪后的视唱音频转换为所述二维声谱图。
6.如权利要求1-5任一项所述的基于目标检测的视唱音高检测方法,其特征在于,所述检测所述二维声谱图中各音符的起始时刻、结束时刻和音符下边界代表的频点索引包括:
将所述二维声谱图映射为RGB图像,并将所述RGB图像切割为多个矩形块,每一所述矩形块的长宽比与预设长宽比之间的误差不大于设定值;
分别对各所述矩形块进行音符检测,以检测出各所述矩形块中每个音符的起始时刻、结束时刻和音符下边界代表的频点索引。
7.如权利要求6所述的基于目标检测的视唱音高检测方法,其特征在于,对所述矩形块进行音符检测包括:
利用YOLOX模型对所述矩形块进行音符检测,得到一个或多个目标框;
当多个目标框中存在两个相交的目标框时:若其中一目标框的一半以上位于另一目标框内,删除两个相交的目标框,并生成包含两个相交的目标框的新目标框,否则,将左侧目标框的右边界设置为右侧目标框的左边界,更新右侧目标框。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210656997.0/1.html,转载请声明来源钻瓜专利网。