[发明专利]基于测试代价的决策树分类器构造方法在审

专利信息
申请号: 201610353308.3 申请日: 2016-05-25
公开(公告)号: CN106611180A 公开(公告)日: 2017-05-03
发明(设计)人: 金平艳;胡成华 申请(专利权)人: 四川用联信息技术有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 暂无信息 代理人: 暂无信息
地址: 610054 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提出了基于测试代价的决策树分类器构造方法,涉及智能服务、机器学习技术领域,从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例。之后遵循测试成本代价最小原则构建决策树,这里的测试代价限制条件更加严苛,也更优化。测试代价f作为选择属性标准,c作为分裂属性标准。若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例。更优化的决策树分类器就构成了。
搜索关键词: 基于 测试 代价 决策树 分类 构造 方法
【主权项】:
基于测试代价的决策树分类器构造方法,该方法涉及智能服务、机器学习技术领域,其特征是:本发明从库中数据流中提取最匹配的训练示例样本为标识示例,对新示例进行类预测,若在分类过程中为相同的类,或测试属性为空时,则标识示例类符合此新示例,之后遵循测试成本代价最小原则构建决策树,测试代价f作为选择属性标准,c作为分裂属性标准,若在叶子结点出现未知类,同时测试成本也更优化,则更新库,保存新示例,更优化的决策树分类器就构成了,其具体的实施步骤如下:步骤1:根据保存示例与新示例之间的特征差值来标识和鉴定训练示例样本:其中为已有新示例第属性值,表示它们之间相关性,取值范围为,当没有数值属性时,即为0,否则就为1;当两比较特征有至少一个值未知,就标记为0.5,当越大,则标识了更多示例,当=0时,则找到了最佳匹配训练示例;步骤2:专家根据实际情况,给出每项属性进行的测试成本:在训练样本集S中进行每一项属性测试需要的费用,记为,为第X属性测试成本,测试代价由相关专家给出;步骤3:用户自定义参数经济因子,它范围为,经济因子为用来校准成本花费的一个变量,当为最大成本花费;完整阈值由相关领域专家给出,其取值范围为;步骤4:根据遍历输入的训练样本集候选属性列表,计算每个候选属性,得出当前选择属性;步骤4.1: 遍历所有训练样本集的属性,计算每个属性的,选择值最大的属性作为测试代价决策树分类器的根结点;候选属性的选择因子为:其中为训练示例集中属性为X的信息增益,为属性X的信息成本函数;步骤5:对应于步骤4得出的最大候选属性每一个属性值,在结点下生成相应分支(即分裂抽象属性);每个分支样本集合为所有属性值对应分支的训练样本,这样训练样本集为个子集,也为属性值个数;步骤6:将每个子集作为新的训练样本集,对各子集递归调用本算法,即重回步骤4,用同样的方法将样本子集分割,产生分支的分支,同时获得相应子集的子集,直到满足以下两条件之一则终止建树过程,即:条件1:在一个子集或分支结点中所有样例属性都为同一类别,又称之为观测值;条件2:在一个子集或分支结点中所有样本为空;步骤7:在叶子结点分类时出现未知类同时又有廉价的测试功能,则更新库保存新的示例。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610353308.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top