[发明专利]一种基于数据驱动的音符起始点检测方法在审

申请号：	202011162728.6	申请日：	2020-10-27
公开（公告）号：	CN112309432A	公开（公告）日：	2021-02-02
发明（设计）人：	雷小林;蒋文颉;胡健;张震;郑婧	申请（专利权）人：	暨南大学
主分类号：	G10L25/51	分类号：	G10L25/51;G10L25/87;G06F16/65;G06F16/68;G06F16/683;G06K9/00;G06K9/62;G06N3/04;G06N3/08;G10L25/18;G10L25/30
代理公司：	深圳科湾知识产权代理事务所(普通合伙) 44585	代理人：	钟斌
地址：	510630 广***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据驱动音符起始检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于数据驱动的音符起始点检测方法，其特征在于：包括以下步骤：

步骤1：构建曲目清单，清单包括不同歌曲类型，歌曲类型，每首歌曲的时间为10-60秒的片段；

步骤2：构建人声清唱音频采集模块，由多名专业和业余演唱者组成的人员根据曲目清单清唱录制10-60秒的音频，音频的格式为wav文件，音频采样率为16kHz；记录好曲目类型、歌曲编号、歌曲名称、演唱者类型、歌词内容后将音频保存到数据库；

步骤3：由多名专业演唱者对保存的所有音频进行人工标注，每位演唱者独立地为所有音频的音符起始位置标注，标注格式为Praat TextGrid，精度为毫秒；

步骤4：构建Praat TextGrid文件批量解析模块，对所述步骤3保存的Praat TextGrid音符起始点标注数据进行批量解析；

步骤5：构建标注自动修正模块，对所述步骤4的解析结果进行统计修正；根据标注时间的均值及标准差进行处理，均值计算公式为标准差计算公式为其中N为所述步骤3中参与人工标注的人数，t_i为各标注者各自标注的音符起始点时间；若标准差σ_t大于偏差阀值θ_t，则说明每个专业演唱者对该音符起始点标注存在较大分歧，需要记录该标注点相关信息进行二次集中讨论标注；若标准差σ_t小于偏差阀值θ_t，则将均值计算结果μ_t加入标签序列中，并将Praat TextGrid文件对应的起始点修正为μ_t。

2.根据权利要求1所述的一种基于数据驱动的音符起始点检测方法，其特征在于：根据所述步骤五中需要二次集中讨论标注的标注点，由多名专业演唱者集中一起商讨重新标注，将重新标签结果的均值计算结果μ_t加入标签序列中，并将Praat TextGrid文件对应的起始点修正为μ_t。

3.根据权利要求1所述的一种基于数据驱动的音符起始点检测方法，其特征在于：利用卷积层和池化层来提取音频的log梅尔频谱特征信息，双向长短时记忆循环神经网络(BiLSTM)直接对log梅尔频谱片段进行分类，从而达到识别音符起始点的目的。

4.根据权利要求3所述的一种基于数据驱动的音符起始点检测方法，其特征在于：设音频文件的总时长为T_duration，滑动步长为L_hop，log梅尔频谱的总帧数为N_frame＝T_duration/L_hop，滑动窗口包括1个中心帧及前后各为N_context个的上下文帧，即滑动窗口的总长度为1+2*N_context；这样设置滑动窗口的内容主要让机器学习模型学习到音符起始点及前后时间段的特征信息及关联信息；在对log梅尔频谱进行滑动切分前需要在开始和结尾处分别扩充N_context个空白帧。

5.根据权利要求4所述的一种基于数据驱动的音符起始点检测方法，其特征在于：由标注的音符起始点的时间位置及滑动步长L_hop，计算该音符起始点的时间点位于log梅尔频谱中哪个帧，以该帧作为滑动窗口的中心帧即可计算得到所在片段；将音符起始点所在的片段记为正向样本，其标签权重置为1；为了抵消人工标注精度上的误差，可以将所在片段的前后相临片段也记为正向样本，其标签权重置为0.5；这样设置即抵消人工标带来的偏差，同时也能扩充正向样本的数量；由所有的正向样本及标签权重信息即可构建出标签序列及标签权重序列。

6.根据权利要求3所述的一种基于数据驱动的音符起始点检测方法，其特征在于：加载数据生成训练集和验证集，构建cnn+BILSTM+attention模型，并利用训练集和验证集来训练优化模型。

7.根据权利要求6所述的一种基于数据驱动的音符起始点检测方法，其特征在于：所述cnn+BILSTM+attention模型主要包括：一维卷积层、池化层、BILSTM层、注意力机制层及softmax分类层。

8.根据权利要求6所述的一种基于数据驱动的音符起始点检测方法，其特征在于：BiLSTM层中的前向传播层和反向传播层包括遗忘门，输入门，输出门，细胞状态，隐藏层状态，其各自的更新函数如下：

c_t＝i_tg_t+f_tc_t-1

h_t＝o_ttanh(c_t)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于暨南大学，未经暨南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011162728.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种多线圈并绕的耦合电感器及其制备方法
下一篇：IT设备非IT能耗的计量、费用分摊方法及电子装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据驱动的音符起始点检测方法在审

专利文献下载