[发明专利]标准化多维代价敏感决策树的集成分类器构建方法在审
申请号: | 201610486937.3 | 申请日: | 2016-06-28 |
公开(公告)号: | CN106611189A | 公开(公告)日: | 2017-05-03 |
发明(设计)人: | 金平艳;胡成华 | 申请(专利权)人: | 四川用联信息技术有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610054 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标准化 多维 代价 敏感 决策树 集成 分类 构建 方法 | ||
技术领域
本发明涉及机器学习、人工智能以及数据挖掘领域,具体涉及一种标准化多维代价敏感决策树的集成分类器构建方法。
背景技术
决策树研究是数据挖掘和机器学习中的一项重要和积极的研究课题。其所提出的算法被广泛地和成功地应用于实际问题中,如ID3,CART和C4.5,此类经典学习算法主要是研究准确率的问题,能够得到更高准确性的决策树。在现有的算法中,其大多数都只倾向于考虑测试代价和误分类错误代价中的一种,此类算法称为一维尺度代价敏感,其构建的决策树在现实案例中不能够解决综合问题。在代价敏感学习中除了考虑测试代价和误分类代价对分类的影响,还需考虑待时间代价对分类预测的影响,例如,患者可能存在测试代价约束,也有可能存在等待时间上的约束,根据不同类别需求人所具备的自身资源不同,所需的时间长短也不同,考虑各种代价单位机制不同的问题,另外在构建决策树过程中,采用先剪枝技术来解决决策树中过拟合问题。
由于单一的分类器有着结果不稳定的缺点,而集成学习通过训练集分类器的多个版本来解决这一个问题,因此通常能得到结果比单个分类器具有更强的泛化能力。为解决上述需求,基于在之前一种标准化的多维尺度异构代价敏感决策树构建方法基础上,本发明提出标准化多维代价敏感决策树的集成分类器构建方法。
发明内容
针对于解决单一的分类器有着结果不稳定的缺点,提供一种标准化多维代价敏感决策树的集成分类器构建方法。
为解决上述问题,本发明是通过以下技术方案实现的:
标准化多维代价敏感决策树的集成学习方法,包括如下步骤:
步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为分类器个数,T为测试数据集。
步骤二:根据装袋法从D中随机出训练子集Dj,从属性特征个数n中提取出属性特征子集个数nj。
步骤三:由子集(Dj,nj)利用目标函数f(Si)作为属性选择因子来构建基分类器Ci,即构建一个标准化多维代价敏感决策树。
步骤四:重复步骤2和步骤3,建立一个集成分类器。
步骤五:测试集中数据x∈T,通过集成分类器中每棵决策树和运行记录的预测值,根据投票预测结果,得票最多的预测类作为此测试数据的最终类标号。
本发明有益效果是:
1、考虑了信息增益因素,构建的决策树有更好分类准确度,加强了分类能力,避免了当类中有稀有类时,把它当做普通类进行分类。
2、考虑了多种代价影响因子和决策树分支当中生成了空节点,若未知事物分类结果不符合当前模型,则可以通过空节点继续进行下一步分类操作,此构建的决策树模型应用范围要更广,更符合实际的需求。
3、在决策树构建过程中,标准化总测试代价可以更有效避免了分裂属性信息存在因过小而被忽略的风险。
4、建树过程中,对总测试代价和误分类代价标准化,可以更好的把各代价不同单位机制转化为同一单位机制,形成的决策树具有高的分类精度和降低误分类代价、测试代价以及待时间代价。
5、利用先剪支技术对决策树进行剪支提高了分类学习的速率。
6、构成的决策树更好的规避了信息偏置为数量级大的问题。
7、构成的集成分类器分类精度比单个分类器分类精度高很多。
8、构成的集成分类器泛化能力比单个分类器更强。
附图说明
图1为标准化多维代价敏感决策树的集成学习方法流程图
图2为一种标准化的多维尺度异构代价敏感决策树构建方法
具体实施方式
为解决单一的分类器有着结果不稳定的缺点,更好的提高分类精度问题,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤一:设原始训练集中有D个样本,原始训练集属性特征个数为n,F为基分类器个数,T为测试数据集。
F为基分类器个数,其具体设定公式为:
F=1/2lnD
步骤二:从D中随机出训练子集Dj,从属性特征个数n中提取出属性特征子集个数nj。其具体原理如下:
第一,从D中随机出训练子集Dj具体描述为:从原数据集D中有放回的随机抽样N个样本更换原来的N。有些样本被抽中一次以上,以及有些样本一次都不被选中。这种抽样法大约有2/3的样本个数将被选中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川用联信息技术有限公司,未经四川用联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610486937.3/2.html,转载请声明来源钻瓜专利网。