[发明专利]基于信息熵的音乐哼唱检测方法有效
申请号: | 201210371373.0 | 申请日: | 2012-09-29 |
公开(公告)号: | CN102930873A | 公开(公告)日: | 2013-02-13 |
发明(设计)人: | 张栋;谢志成;叶东毅;余春艳;刘会彬;张玉溪 | 申请(专利权)人: | 福州大学 |
主分类号: | G10L25/90 | 分类号: | G10L25/90 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 信息 音乐 哼唱 检测 方法 | ||
1.一种基于信息熵的音乐哼唱检测方法,其特征在于:利用人声在哼唱时前后两个字的发音相似性,通过信息熵的方法逐句对歌声加以切割,再将分割结果同标准文件的结果比较,实现检测是否哼唱的功能,包括如下步骤:
在得到输入的数字音乐语音信号后,将整个语音信号进行滤波、归一化预处理;
对语音信号进行分帧处理,分别计算每一帧的信息熵;
根据信息熵将整个语音信号分割成若干段;
读取标准文件,如果分割结果小于标准文件读取结果的一半以上,则认为该段语音是哼唱的,否则认为该语音信号正常。
2.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述的每一帧的帧长W描述为10~30ms内的采样数,W=每一帧的时间长度*采样频率;所述的帧移WF描述为相邻两帧未重叠的部分,WF=帧长/2。
3.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述的信息熵描述为表示时间序列混乱程度的大小,时间序列分布越混乱,信息熵越大,反之则越小。
4.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述的标准文件描述为一系列的三元组Oi(begini, endi,Ci),其中1<=i<=n,Ci为歌词,begini为第i个字的起始时间,endi为第i个字的截止时间,n表示语音段的歌词总数。
5.根据权利要求1所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述步骤(2)中所述每一帧的信息熵的计算按照以下方案实现:所述的语音分成长度为W的语音帧后,对于每一帧作如下处理:找到该帧中的最大值max,然后分成等长的k个区间[0,x1],[x1,x2],…,[xk-1,max],统计该帧在每个区间的值的个数并计算概率,得到概率p1,p2,…,pk,然后根据公式 ,最后得到该帧的信息熵;整个语音信号的信息熵序列用H表示。
6.根据权利要求5所述的基于信息熵的音乐哼唱检测方法,其特征在于:所述步骤(3)中所述根据信息熵将整个语音信号分割成若干段是按照以下方案实现:根据H的最大值确定阈值flag=max(H)/3,所述的语音段必须满足长度大于150ms,则对应到信息熵的长度为L=(0.15*fs)/WF,即在H中从第一个点开始,找到某个点hi>flag,若后面连续L个点hi+1,hi+2,…,hi+L的值均大于flag,假设到L’终止,该L’>L,则从点hi到点hi+L’的这一段所对应的语音信号段就是所求的一段分割出来的单独语音;依次类推,通过H找到若干段单独语音,记为n,所得到的n个语音段就是分割结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210371373.0/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置