[发明专利]基于信息熵的音乐哼唱检测方法有效

专利信息
申请号: 201210371373.0 申请日: 2012-09-29
公开(公告)号: CN102930873A 公开(公告)日: 2013-02-13
发明(设计)人: 张栋;谢志成;叶东毅;余春艳;刘会彬;张玉溪 申请(专利权)人: 福州大学
主分类号: G10L25/90 分类号: G10L25/90
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350108 福建省福州市*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 信息 音乐 哼唱 检测 方法
【权利要求书】:

1.一种基于信息熵的音乐哼唱检测方法,其特征在于:利用人声在哼唱时前后两个字的发音相似性,通过信息熵的方法逐句对歌声加以切割,再将分割结果同标准文件的结果比较,实现检测是否哼唱的功能,包括如下步骤:

在得到输入的数字音乐语音信号后,将整个语音信号进行滤波、归一化预处理;

对语音信号进行分帧处理,分别计算每一帧的信息熵;

根据信息熵将整个语音信号分割成若干段;

读取标准文件,如果分割结果小于标准文件读取结果的一半以上,则认为该段语音是哼唱的,否则认为该语音信号正常。

2.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述的每一帧的帧长W描述为10~30ms内的采样数,W=每一帧的时间长度*采样频率;所述的帧移WF描述为相邻两帧未重叠的部分,WF=帧长/2。

3.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述的信息熵描述为表示时间序列混乱程度的大小,时间序列分布越混乱,信息熵越大,反之则越小。

4.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述的标准文件描述为一系列的三元组Oi(begini, endi,Ci),其中1<=i<=n,Ci为歌词,begini为第i个字的起始时间,endi为第i个字的截止时间,n表示语音段的歌词总数。

5.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述步骤(2)中所述每一帧的信息熵的计算按照以下方案实现:所述的语音分成长度为W的语音帧后,对于每一帧作如下处理:找到该帧中的最大值max,然后分成等长的k个区间[0,x1],[x1,x2],…,[xk-1,max],统计该帧在每个区间的值的个数并计算概率,得到概率p1,p2,…,pk,然后根据公式 ,最后得到该帧的信息熵;整个语音信号的信息熵序列用H表示。

6.根据权利要求5所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述步骤(3)中所述根据信息熵将整个语音信号分割成若干段是按照以下方案实现:根据H的最大值确定阈值flag=max(H)/3,所述的语音段必须满足长度大于150ms,则对应到信息熵的长度为L=(0.15*fs)/WF,即在H中从第一个点开始,找到某个点hi>flag,若后面连续L个点hi+1,hi+2,…,hi+L的值均大于flag,假设到L’终止,该L’>L,则从点hi到点hi+L’的这一段所对应的语音信号段就是所求的一段分割出来的单独语音;依次类推,通过H找到若干段单独语音,记为n,所得到的n个语音段就是分割结果。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210371373.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top