[发明专利]基于测试代价的决策树分类器构造方法在审
申请号: | 201610353308.3 | 申请日: | 2016-05-25 |
公开(公告)号: | CN106611180A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了基于测试代价的决策树分类器构造方法,涉及智能服务、机器学习技术领域,从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例。之后遵循测试成本代价最小原则构建决策树,这里的测试代价限制条件更加严苛,也更优化。测试代价f作为选择属性标准,c作为分裂属性标准。若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例。更优化的决策树分类器就构成了。 | ||
搜索关键词: | 基于 测试 代价 决策树 分类 构造 方法 | ||
【主权项】:
基于测试代价的决策树分类器构造方法,该方法涉及智能服务、机器学习技术领域,其特征是:本发明从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例,之后遵循测试成本代价最小原则构建决策树,测试代价f作为选择属性标准,c作为分裂属性标准,若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例,更优化的决策树分类器就构成了,其具体的实施步骤如下:步骤1:根据保存示例与新示例之间的特征差值来标识和鉴定训练示例样本:其中为已有新示例第属性值,表示它们之间相关性,取值范围为,当没有数值属性时,即为0,否则就为1;当两比较特征有至少一个值未知,就标记为0.5,当越大,则标识了更多示例,当=0时,则找到了最佳匹配训练示例;步骤2:专家根据实际情况,给出每项属性进行的测试成本:在训练样本集S中进行每一项属性测试需要的费用,记为,为第X属性测试成本,测试代价由相关专家给出;步骤3:用户自定义参数经济因子,它范围为,经济因子为用来校准成本花费的一个变量,当为最大成本花费;完整阈值由相关领域专家给出,其取值范围为;步骤4:根据遍历输入的训练样本集候选属性列表,计算每个候选属性,得出当前选择属性;步骤4.1: 遍历所有训练样本集的属性,计算每个属性的,选择值最大的属性作为测试代价决策树分类器的根结点;候选属性的选择因子为:其中为训练示例集中属性为X的信息增益,为属性X的信息成本函数;步骤5:对应于步骤4得出的最大候选属性每一个属性值,在结点下生成相应分支(即分裂抽象属性);每个分支样本集合为所有属性值对应分支的训练样本,这样训练样本集为个子集,也为属性值个数;步骤6:将每个子集作为新的训练样本集,对各子集递归调用本算法,即重回步骤4,用同样的方法将样本子集分割,产生分支的分支,同时获得相应子集的子集,直到满足以下两条件之一则终止建树过程,即:条件1:在一个子集或分支结点中所有样例属性都为同一类别,又称之为观测值;条件2:在一个子集或分支结点中所有样本为空;步骤7:在叶子结点分类时出现未知类同时又有廉价的测试功能,则更新库保存新的示例。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610353308.3/,转载请声明来源钻瓜专利网。