[发明专利]一种基于类边界分布特性的音频分类器训练方法有效
申请号: | 201310374246.0 | 申请日: | 2013-08-23 |
公开(公告)号: | CN103412945A | 公开(公告)日: | 2013-11-27 |
发明(设计)人: | 冷严;王孝朋;齐广慧;徐新艳 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 张勇 |
地址: | 250014 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 边界 分布 特性 音频 分类 训练 方法 | ||
1.一种基于类边界分布特性的音频分类器训练方法,其特征是,具体步骤为:
步骤一:输入初始已标注音频样本集L和未标注音频样本集U,建立音频样本数据库,并利用初始已标注音频样本集L对SVM分类器进行第一次训练;
步骤二:确定当前SVM分类器的稀疏区域,并将稀疏区域扩展至包含混淆区域,从扩展后的稀疏区域内选出分类信息量大的样本,并消除信息量大的样本中存在的冗余;
步骤三:将分类信息量大的样本交由专家标注后放入已标注样本集L中;
步骤四:用更新的已标注音频样本集L再次训练SVM分类器;
步骤五:判断是否满足停止准则,满足则停止迭代,输出训练好的SVM分类器;不满足则重复步骤二~步骤四。
2.如权利要求1所述的音频分类器训练方法,其特征是,所述步骤二的具体步骤为:
步骤(2-1):将当前分类器的分类间隔等分成M个互不交叠的区域,得到具有M个柱状体的直方图H,根据直方图H中各个柱状体的概率值求得待分类的两类的熵和,将能使该熵和取最大值的柱状体所代表的连续区域定义为当前SVM分类器分类间隔内的稀疏区域;
步骤(2-2):利用直方图中各个柱状体的混淆率对当前SVM分类器的稀疏区域进行扩展,使得扩展后的稀疏区域包含混淆区域;
步骤(2-3):将扩展后的稀疏区域内的样本按照其决策值与扩展前稀疏区域内的样本的平均决策值的差值绝对值大小进行升序排序,排序后根据样本不共享最近邻支持向量的原则以及样本不能互为最近邻的原则,消除信息含量大的样本中存在的冗余。
3.如权利要求2所述的音频分类器训练方法,其特征是,所述步骤(2-1)的具体步骤为:
(21-1)用当前分类器对未标注样本进行分类;
(21-2)将分类间隔等分成互不交叠的M个区域,对每个区域内的样本数进行统计,样本集包括已标注的样本和未标注的样本,得到具有M个柱状体的直方图H,M为自然数;
(21-3)令pi(i=1,…,M)表示直方图H中第i个柱状体的概率,该概率值等于第i个柱状体中样本数和样本集中位于分类器分类间隔内的样本数的比值,样本集中位于分类器分类间隔内的样本包括已标注的样本和未标注的样本;
(21-4)设Ω1,Ω2表示两个类,假设两类之间的分类阈值为t,t=1,……M,则类Ω1的熵和类Ω2的熵表示成关于阈值t的函数,即:
其中
(21-5)将能使熵取得最大值的阈值定义为最佳阈值,设最佳阈值为t0,则:
可见,t0实质上代表了直方图的第t0个柱状体,SVM分类器将样本按照其决策值大小进行排序,则直方图的第t0个柱状体实质上对应分类间隔内的一个连续区域,称这个区域为当前分类器的稀疏区域。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310374246.0/1.html,转载请声明来源钻瓜专利网。