[发明专利]一种基于KL散度的音频特征提取方法有效

申请号：	201810930863.7	申请日：	2018-08-15
公开（公告）号：	CN109036382B	公开（公告）日：	2020-06-09
发明（设计）人：	杨玉红;张会玉;冯佳倩;胡瑞敏;艾浩军;涂卫平;王晓晨	申请（专利权）人：	武汉大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L25/21;G10L25/30
代理公司：	武汉科皓知识产权代理事务所(特殊普通合伙) 42222	代理人：	魏波
地址：	430072 湖***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于KL散度的音频特征提取方法，包括：按类读取训练集中的音频文件，然后转化成对应的功率谱，计算得到训练集中不同声学场景的类间KL散度矩阵，划分KL滤波器的频率群，设计出KL滤波器；将训练集的功率谱通过KL滤波器，提取出基于类间KL散度的频谱特征；将KL频谱特征取对数并归一化后输入到卷积神经网络进行训练得到声学模型；读取测试集的音频文件，然后转化成对应的功率谱，通过KL滤波器提取出测试集对应的KL频谱特征；将测试集的KL频谱特征输入训练好的声学模型进行测试和评估，得到最终的声场景分类模型准确率。本发明应用到其他声场景分类事件中，可得到比传统的基于人耳的Mel特征提取方法更好的性能。
搜索关键词：	一种基于 kl 音频特征提取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于KL散度的音频特征提取方法，其特征在于，包括以下步骤：步骤1：读取训练集中原始的音频文件，得到计算机能够处理的时域音频信号数据；步骤2：将步骤1得到的时域音频信号数据进行预处理；步骤3：对预处理后的时域音频信号转变为频域信号；步骤4：计算频域信号的功率谱；步骤5：将功率谱取对数，并将对数功率谱进行归一化处理，以此得到归一化对数功率谱；步骤6：利用步骤5得到的归一化对数功率谱设计KL滤波器；步骤7：将步骤4得到的功率谱通过KL滤波器，得到KL谱特征；步骤8：对步骤7中求出来的KL谱特征取对数并归一化，得到归一化对数KL谱特征；步骤9：将步骤8中得到的归一化对数KL谱特征作为网络模型的输入，训练网络模型，验证评估结果；步骤10：对测试集也进行步骤1～4的操作，然后将步骤4得到的功率谱通过步骤6设计出来的KL滤波器，提取到测试集对应的KL谱特征；步骤11：将提取的测试集的KL谱特征归一化之后，输入到步骤9训练好的网络模型进行评估，得到在该数据集下的ASC分类结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于武汉大学，未经武汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810930863.7/，转载请声明来源钻瓜专利网。

上一篇：语音处理方法及装置、计算机装置及可读存储介质
下一篇：一种结合爬虫技术的轻量级实时语音识别及翻译装置

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于KL散度的音频特征提取方法有效

专利文献下载