[发明专利]基于测试代价的决策树分类器构造方法在审
申请号: | 201610353308.3 | 申请日: | 2016-05-25 |
公开(公告)号: | CN106611180A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 测试 代价 决策树 分类 构造 方法 | ||
所属领域
本发明涉及智能服务、机器学习技术领域。
背景技术
决策树决策方法是机器学习领域中经典算法,得到了广泛应用。早期分类中,一般认为准确率是对分类效果很重要的衡量标准之一。以ID3算法为代表,它主要是在分裂属性选择方法和优化剪支策略两方面的研究。在实际的许多分类问题中,算法ID3存在各种条件的限制。其中最主要一点是缺乏背景知识,从而限制学习过程。如一位脑肿瘤专家在判定一个患头疼的病人时,第一次并不进行最有效果的昂贵扫描,此时专家有经济标准。在这种简单常见的病症下,一开始是简单问题测试或是一些其它更为经济的测试,另外针对于数据流中需要找到最匹配的训练样本。再对此训练样本构建分类器。以增量方式更新分类器。此分类器在进行数据分类的过程中应遵循测试成本最小化归纳规则,以适应更多实际数据分类问题,基于这种需求,本发明提出了更优化的基于测试代价的决策树分类器构造方法。
发明内容
本发明所要解决的技术问题是提供一种更优化的基于测试代价的决策树分类器构造算法。
本发明的目的是:使机器学习决策过程中所产生经济成本最小,构建更优化的决策树分类器。
本发明为实现上述目的所采取的技术方案是:本发明从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例。之后遵循测试成本代价最小原则构建决策树,这里的测试代价限制条件更加严苛,也更优化。测试代价f作为选择属性标准,c作为分裂属性标准。若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例。更优化的决策树分类器就构成了。
本发明的有益效果是:
1、在第1步就进行了库中训练样本的筛选,提高对未知示例归类的准确率。
2、选择属性限制条件f在之前基础上更加严苛,使在归类过程中付出代价更少。
3、可以实现对未知示例归类基础上,如果未知示例中出现了库中未有类别,同时其代价成本又低,则更新库,保存新的示例,功能更加完善。
附图说明
基于测试代价的决策树分类器构造示意图
具体实施方式
以下,结合示意图对本发明进行详细说明。
本发明的具体实施步骤如下。
步骤1:根据保存示例与新示例之间的特征差值d来标识和鉴定训练示例样本S:
其中xtisaved/new为已有新示例第i属性值,表示它们之间相关性,取值范围为[0,1],当没有数值属性时,即为0,否则就为1;当两比较特征有至少一个值未知,就标记为0.5,当d越大,则标识了更多示例,当d=0时,则找到了最佳匹配训练示例;
步骤2:专家根据实际情况,给出每项属性进行的测试成本costX:
在训练样本集S中进行每一项属性测试需要的费用,记为cost,costX为第X属性测试成本,测试代价由相关专家给出;
步骤3:用户自定义参数经济因子ω,它范围为[0,1],经济因子w为用来校准成本花费的一个变量,当w=1为最大成本花费;完整阈值ct由相关领域专家给出,其取值范围为ct∈[0,1];
步骤4:根据f遍历输入的训练样本集候选属性列表,计算每个候选属性,得出当前选择属性;
步骤4.1:遍历所有训练样本集的属性,计算每个属性的f,选择f值最大的属性作为测试代价决策树分类器的根结点;
候选属性的选择因子f为:
f=I2(X)/ICF(X)
其中I(X)为训练示例集中属性为X的信息增益,ICF(X)为属性X的信息成本函数;
步骤5:对应于步骤4得出的最大候选属性每一个属性值,在结点下生成相应分支(即分裂抽象属性);每个分支样本集合为所有属性值对应分支的训练样本,这样训练样本集为i个子集,i也为属性值个数;
步骤6:将每个子集Si作为新的训练样本集,对各子集递归调用本算法,即重回步骤4,用同样的方法将样本子集分割,产生分支的分支,同时获得相应子集的子集,直到满足以下两条件之一则终止建树过程,即:
条件1:在一个子集或分支结点中所有样例属性都为同一类别,又称之为观测值;
条件2:在一个子集或分支结点中所有样本为空;
步骤7:在叶子结点分类时出现未知类同时又有廉价的测试功能,则更新库保存新的示例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610353308.3/2.html,转载请声明来源钻瓜专利网。