[发明专利]基于组合分类器的随机分类方法及装置在审
申请号: | 201710244805.4 | 申请日: | 2017-04-14 |
公开(公告)号: | CN107169506A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 何为舟 | 申请(专利权)人: | 微梦创科网络科技(中国)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙)11624 | 代理人: | 任漱晨 |
地址: | 100193 北京市海淀区东北旺西路中关村*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 组合 分类 随机 方法 装置 | ||
技术领域
本发明涉及分类计算技术领域,具体涉及一种基于组合分类器的随机分类方法及装置。
背景技术
分类问题一直是学术界和工业界所研究的热点问题之一。一个准确快速的分类器,能够为企业提供极大的价值。例如:对客户进行准确的分类,就可以定向的推送客户感兴趣的广告内容,大大提高广告的收益。
解决分类问题,最简单最直接的方法就是规则策略。所谓规则策略,就是将人的经验,总结成一条一条的规则,然后根据这些规则策略,去解决实际的问题。例如:可以根据年龄和性别,将客户分为对汽车感兴趣和对汽车不感兴趣,比如男性20-50,女性25-45。然后,可以根据分类的结果,定向的推送汽车类型的广告。规则策略的优势在于,其实现简单,而且很容易理解。通过不断的对人为经验进行调整,可以设计出一个复杂的规则系统出来。
然而,规则策略的劣势同样也十分明显,那就是非常依赖于人的意识。所有的规则都是通过人的经验总结出来的,尽管实现起来不难,但是却需要人工去进行大量的学习操作。还是以广告客户为例,当只考虑年龄和性别这两个因素的时候,规则制定起来还是相对容易。然而,我们知道,影响一个人的兴趣的因素,除了年龄和性别,还包括环境,学历,生活经历等等复杂的因素,而这些因素就很难去通过经验总结成规则。因此,在这一点上,规则策略的分类方法,很难取得非常好的效果。
解决分类问题另外一个热门的方法就是机器学习。经过大量的研究和分析,在机器学习的低维层次,许多算法被设计出来。这些算法涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。其中,比较经典的分类算法包括:逻辑回归(Logistic Regression),支持向量机(Support Vector Machine),决策树(Decision Tree),朴素贝叶斯等。这些分类算法都属于低维度的领域,因为它们都是通过某种概率学或者统计学上的某一个理论去进行分类的。这些分类算法实现上都相对简单,对性能的要求较低,实用性极强。
随机森林,指的是利用多棵树对样本进行训练并预测的一种分类器。简单来说,随机森林就是由多棵CART(Classification And Regression Tree,分类与回归树)构成的。随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即bootstrap(引导程序)取样);(2)在每个节点,随机选取所有特征的一个子集,用来计算最佳分割方式。对于每棵树,它们使用的训练集是从总的训练集中有放回采样出来的,这意味着,总的训练集中的有些样本可能多次出现在一棵树的训练集中,也可能从未出现在一棵树的训练集中。在训练每棵树的节点时,使用的特征是从所有特征中按照一定比例随机地无放回的抽取的。
随机森林能够处理很高维度(feature很多)的数据,并且不用做特征选择。在训练完后,它能够给出哪些特性比较重要。在创建随机森林的时候,对泛化误差使用的是无偏估计,模型泛化能力强。训练速度快,容易做成并行化方法。在训练过程中,能够检测到特性间的互相影响。
虽然在实践中,上述分类算法都表现出了其有效性,但是这些分类器普遍都存在以下局限性:
1、过拟合和欠拟合:明显的未充分利用数据,拟合结果不符合预期,甚至不能有效拟合训练集,预测准确率、召回率都比理论上最佳拟合函数低很多,则为欠拟合。考虑过多,超出自变量的一般含义维度,过多考虑噪声,会造成过拟合。训练集预测效果好,测试集预测效果差,都属于过拟合的结果。低维度的分类算法,因为其考虑的维度有限,对噪声比较敏感,并且针对不同的训练机,都需要去调整相应的参数,很容易出现过拟合或者欠拟合的现象。
2、离散变量和连续变量:对于一组训练数据,其中的变量可以按照分布情况,划分为离散变量和连续变量。对于某些变量来说,只能够取固定的几个值,则属于离散变量,如性别。而对于某些变量来说,则能够取一个范围内的任意值,则属于连续变量,如年龄。对于不同的低维度算法,往往只支持某一种变量,例如:决策树只支持离散变量。而大部分的线性算法(逻辑回归,支持向量机等)则支持连续变量。虽然离散变量和连续变量之间,可以按照一定的规则相互转化,但是转化的结果往往都不理想,而且比较复杂。
3、特性单一:不同的分类算法都有各自不同的设计初衷,在不同的场景下产生不同的效果。而在实际应用中,训练集的特性和分布情况都各不相同,还有可能随着时间的推移,发生改变,即概念漂移的现象。而单一的分类算法,往往无法应对这种变化情况,因此,效果将造成较大的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微梦创科网络科技(中国)有限公司,未经微梦创科网络科技(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710244805.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种小学生用多功能眼镜盒
- 下一篇:一种蓝色单晶刚玉的玉器存放盒