[发明专利]音频的特征提取方法、音频的分类方法和相关装置有效
申请号: | 201310255746.2 | 申请日: | 2013-06-24 |
公开(公告)号: | CN104240719B | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 谢志明;潘晖;潘石柱;张兴明;傅利泉;朱江明;吴军;吴坚 | 申请(专利权)人: | 浙江大华技术股份有限公司 |
主分类号: | G10L25/54 | 分类号: | G10L25/54;G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 310053 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 特征 提取 方法 分类 相关 装置 | ||
技术领域
本发明涉及模式识别领域,尤其涉及一种音频的特征提取方法、音频的分类方法和相关装置。
背景技术
音频的分类可广泛应用于音频检索以及异常事件检测。比如,应用于音频检索的一个实例是通过对某音频进行语音与音乐的分类,从而能够在确定出的类别所对应的数据库中进行检索。在该实例中,如果能够预先确定出该音频的类别是“音乐”,则可以直接在“音乐数据库”中去检索。特别地,如果能够预先确定出该音频是具备某种音乐风格的音频,则可进一步缩小检索范围。再比如,应用于异常事件检测的一个实例是通过对某音频进行尖叫声、玻璃碎裂声、枪声与正常声音(如按某人正常语速说话的声音等)的分类,从而判断出产生该音频的事件是异常事件还是正常事件。在该实例中,如果确定出该音频的特征与尖叫声、枪声或玻璃碎裂等异常音频的特征类似,则可以确定该音频归属于异常音频这一类别,从而确定该音频所对应的事件为异常事件;而如果该音频的特征与正常声音的特征类似,则可以确定该音频归属于正常音频这一类别,从而确定该音频所对应的事件为正常事件。
现有技术中一般都是对已知类别的且时长等于特定时长(比如1秒)的音频样本进行分帧短时处理(即将一段音频划分为多帧),得到各个帧的美尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、线性预测倒谱系数(Linear Predictive Cepstral Coding,LPCC)等,并将其组合起来作为该段音频样本的特征,再将从各个音频样本中提取到的特征进行聚类或分类训练得到各类音频的共性特征。而后在对未知类别的音频进行分类时,也是对时间定长的一段音频进行同样的分帧处理,提取相应的特征送入聚类得到的聚类中心或分类训练得到的分类器中进行比较,从而确定分类结果。
上述这种方法存在的缺陷是:无论是已知类别的音频样本,还是需要分类的未知类别的音频,都要求它们的时长必须等长(为指定时间长度),因为如果时长不等长,则按照上述方法提取到的特征的长度也是不相等的,从而无法进行聚类或分类训练,更无法对未知类别的音频进行分类。
发明内容
本发明实施例提供一种音频的特征提取方法、音频的分类方法和相关装置,用以解决现有技术中无法对不同时长的音频提取出相同长度的特征的问题。
本发明实施例采用以下技术方案:
一种音频的特征提取方法,包括:
获得音频,并针对获得的每个音频执行下述操作:
按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧;
按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;
根据得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,对提取出的各音频样本帧的特征进行聚类得到的;
分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。
一种音频的特征提取装置,包括:
获得单元,用于获得音频;
分帧单元,用于对获得单元获得的每个音频执行:按照预先设置的分帧规则,对该音频进行划分,得到多个音频帧;
特征提取单元,用于按照预先设置的特征提取规则,分别对分帧单元得到的所述多个音频帧进行特征提取,得到各音频帧的特征;
聚类中心确定单元,用于根据特征提取单元得到的各音频帧的特征,以及用于区别音频帧类别的各聚类中心,分别确定每个音频帧对应的聚类中心;其中,每个音频帧与其对应的聚类中心满足:在该音频帧的特征和每个聚类中心的特征的相似度中,该音频帧的特征和其对应的聚类中心的特征的相似度最大;所述各聚类中心是根据所述分帧规则分别将各个音频样本划分为多个音频样本帧,并按照所述特征提取规则提取各音频样本帧的特征后,对提取出的各音频样本帧的特征进行聚类得到的;
特征确定单元,用于分别确定各聚类中心所对应的音频帧的个数,并根据确定出的所述个数确定所述音频的特征。
一种音频的分类方法,包括:
步骤一:按照预先设置的分帧规则,对待分类音频进行划分,得到多个音频帧;
步骤二:按照预先设置的特征提取规则,分别对所述多个音频帧进行特征提取,得到各音频帧的特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大华技术股份有限公司,未经浙江大华技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310255746.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种旋转式化成分容装置
- 下一篇:社区地下室环境智能管理系统