[发明专利]基于信息熵的音乐哼唱检测方法有效

申请号：	201210371373.0	申请日：	2012-09-29
公开（公告）号：	CN102930873A	公开（公告）日：	2013-02-13
发明（设计）人：	张栋;谢志成;叶东毅;余春艳;刘会彬;张玉溪	申请（专利权）人：	福州大学
主分类号：	G10L25/90	分类号：	G10L25/90
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于信息音乐哼唱检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于信息熵的音乐哼唱检测方法，其特征在于：利用人声在哼唱时前后两个字的发音相似性，通过信息熵的方法逐句对歌声加以切割，再将分割结果同标准文件的结果比较，实现检测是否哼唱的功能，包括如下步骤：

在得到输入的数字音乐语音信号后，将整个语音信号进行滤波、归一化预处理；

对语音信号进行分帧处理，分别计算每一帧的信息熵；

根据信息熵将整个语音信号分割成若干段；

读取标准文件，如果分割结果小于标准文件读取结果的一半以上，则认为该段语音是哼唱的，否则认为该语音信号正常。

2.根据权利要求1所述的基于信息熵的音乐哼唱检测方法，其特征在于：所述的每一帧的帧长W描述为10~30ms内的采样数，W=每一帧的时间长度*采样频率；所述的帧移WF描述为相邻两帧未重叠的部分，WF=帧长/2。

3.根据权利要求1所述的基于信息熵的音乐哼唱检测方法，其特征在于：所述的信息熵描述为表示时间序列混乱程度的大小，时间序列分布越混乱，信息熵越大，反之则越小。

4.根据权利要求1所述的基于信息熵的音乐哼唱检测方法，其特征在于：所述的标准文件描述为一系列的三元组O_i（begin_i， end_i，C_i），其中1<=i<=n，C_i为歌词，begin_i为第i个字的起始时间，end_i为第i个字的截止时间，n表示语音段的歌词总数。

5.根据权利要求1所述的基于信息熵的音乐哼唱检测方法，其特征在于：所述步骤（2）中所述每一帧的信息熵的计算按照以下方案实现：所述的语音分成长度为W的语音帧后，对于每一帧作如下处理：找到该帧中的最大值max，然后分成等长的k个区间[0,x₁],[x₁,x₂],…,[x_k-1,max]，统计该帧在每个区间的值的个数并计算概率，得到概率p₁,p₂,…,p_k，然后根据公式，最后得到该帧的信息熵；整个语音信号的信息熵序列用H表示。

6.根据权利要求5所述的基于信息熵的音乐哼唱检测方法，其特征在于：所述步骤（3）中所述根据信息熵将整个语音信号分割成若干段是按照以下方案实现：根据H的最大值确定阈值flag=max（H）/3，所述的语音段必须满足长度大于150ms，则对应到信息熵的长度为L=（0.15*fs）/WF，即在H中从第一个点开始，找到某个点h_i>flag，若后面连续L个点h_i+1,h_i+2,…,h_i+L的值均大于flag，假设到L’终止，该L’>L，则从点h_i到点h_i+L’的这一段所对应的语音信号段就是所求的一段分割出来的单独语音；依次类推，通过H找到若干段单独语音，记为n，所得到的n个语音段就是分割结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210371373.0/1.html，转载请声明来源钻瓜专利网。

上一篇：一种树脂颗粒的制备方法和设备
下一篇：YMnO₃电介质陶瓷的制备工艺及YMnO₃电介质陶瓷电容器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于信息熵的音乐哼唱检测方法有效

专利文献下载