[发明专利]一种基于主动学习的分类器构建方法有效
申请号: | 201410042498.8 | 申请日: | 2014-01-29 |
公开(公告)号: | CN103793510B | 公开(公告)日: | 2017-10-03 |
发明(设计)人: | 吴健;张宇;徐在俊 | 申请(专利权)人: | 苏州融希信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 苏州创元专利商标事务所有限公司32103 | 代理人: | 陶海锋 |
地址: | 215123 江苏省苏州市苏州工业*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于主动学习的分类器构建方法,充分考虑未标注样本的当前价值和预期价值,挑选高价值的样本。首先利用样本的最优和次优类别信息计算样本的当前价值,根据样本的当前价值的高低选出一部分价值高的样本组成候选样本集,然后计算候选样本集中样本的预期价值,结合样本的当前价值,得到样本的总价值,最后根据样本的总价值,挑选高价值的未标注样本进行标注,添加到训练样本集中,更新分类器。根据不同数据集上的实验结果表明,本发明的方法能够在选择相同数量样本的条件下,得到较高分类正确率的分类器。 | ||
搜索关键词: | 一种 基于 主动 学习 分类 构建 方法 | ||
【主权项】:
一种基于主动学习的分类器构建方法,根据未标注样本和数据特征生成训练样本集并训练分类器,包括下列步骤:(1) 从未标注样本集中随机选择20~50个样本进行人工标注,构建初始训练样本集,然后根据初始训练样本集的数据特征构建初始分类器H(0);(2)采用上一步获得的分类器H(t)计算每一个未标注样本的BvSB值,BvSB值的计算方法是:,其中,x是未标注样本集U中的样本,是样本属于最优类别的后验概率,是样本属于次优类别的后验概率,t是步骤(2)至(6)的循环次数;(3)根据步骤(2)选择h个BvSB值最小的未标注样本组成候选样本集,其中,h为步骤(5)中选择的样本个数的2~5倍;(4)计算候选样本集中每个未标注样本的总价值,方法是:[4‑1] 取候选样本集中的一个未标注样本,用该样本分别结合其最优类别和次优类别标签更新分类器H(t),得到临时分类器和,其中是最优类别标签,是次优类别标签;[4‑2] 利用得到的两个临时分类器计算该未标注样本的两个BvSB值,在这两个BvSB值中较大的BvSB值作为该未标注样本的期望价值,表达为;[4‑3] 基于分类器H(t)得到该未标注样本的BvSB值,表达为,利用以下公式计算该未标注样本的总价值;;重复步骤[4‑1]至[4‑3],获得候选样本集中所有未标注样本的总价值;(5)在候选样本集中选择2~10个Opt值最小的未标注样本进行人工标注,添加到训练样本集中,获得当前训练样本集;(6) 利用当前训练样本集对分类器H(t)进行训练更新;(7) 重复步骤(2)至(6),直至满足分类器训练的停止条件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州融希信息科技有限公司,未经苏州融希信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410042498.8/,转载请声明来源钻瓜专利网。