[发明专利]基于机器学习技术的对中标与非中标数据的平衡方法在审
申请号: | 201910404508.0 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110110806A | 公开(公告)日: | 2019-08-09 |
发明(设计)人: | 安程治;宗云兵;李锐;于治楼 | 申请(专利权)人: | 济南浪潮高新科技投资发展有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 与非 样本 基于机器 平衡 数据平衡 数量平衡 分类器 算法 学习 预测 | ||
本发明提供一种基于机器学习技术的对中标与非中标数据的平衡方法,属于数据平衡技术领域,本发明利用smote算法并且结合CRM数据的特点,对CRM数据中数量不平衡的中标样本与非中标样本进行数量平衡。对样本进行平衡可以使之后的分类器达到最佳效果,使对商机的预测效果到达最好,进而为企业提高效益。
技术领域
本发明涉及数据平衡技术,尤其涉及一种基于机器学习技术的对中标与非中标数据的平衡方法。
背景技术
在现实生活中经常会遇到各个类别的样本量分布不均的问题,即某些类别的样本数量极多,而有些类别的样本数量极少,也就是所谓的类不平衡(class-imbalance)问题。类不平衡是指在训练分类器中所使用的训练集的类别分类不均。比如说一个二分类问题,1000个训练样本,比较理想的情况是正类、负类样本的数量相差不多;而如果正类样本有995个、负类样本仅5个,就意味着存在类不平衡。从训练模型的角度来说,如果某类的样本样本数量很少,那么这个类别所提供的“信息”就太少了。大致来说,数量不平衡的处理方法有三种;一是欠采样,二是过采样,三是调整权重。欠采样是根据少数类样本的数量从多数类样本中随机抽取出等量的样本数与少数类样本合并成平衡训练集,但是这种方法的缺点是丢失了很多的训练样本会导致模型学习到的特征太少。过采样是通过随机复制少数类样本增加至与多数类样本相同的数量组成平衡训练集,但是此类方法的缺点是大量的重复样本会使模型过拟合不利于模型的泛化。调整权重是指根据不平衡的训练集中的正负样本比例来调整的。SMOTE全称是Synthetic Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一个改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别而不够泛化,SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中,算法流程如下:
1、对于少数类中每一个样本x,以欧式距离为标准计算它到少数类样本集中所有样本的距离,得到其k近邻。
2、根据样本不平衡比例设置一个采样比例以确定采样倍率N,对于每一个少数类样本x,从其k近邻中随机选择若干个样本,假设选择的近邻为xn。
3、对于每一个随机选出的近邻xn,分别与与那样本按照如下的公式构建新的样本xnew=x+rand(0,1)*|x–xn|,rand(0,1)代表的是0到1之间的随机数。
现今,第四次工业革命时代到来,信息技术极速发展,为了更好的管理好企业中的各项销售与服务提升企业竞争力,企业管理者通常会严格的要求销售人员认真填写客户关系管理系统(CRM)。CRM是一套利用互联网信息技术记录和管理销售人员与顾客在销售、营销和服务上的交互系统。通过将销售过程中的各项信息(包括:客户名称,项目级别,负责员工等)以规范的格式记录在案的形式方便管理者协调企业资源,吸引新客户,保留老客户以及将已有客户转为忠实客户,增加市场提升利润的目的,在提升企业核心竞争力上具有重大意义,但是在利用CRM中的关于商机信息的数据进行训练预测时,经常会遇到正负样本数量不平衡的情况,进而严重影响模型的可靠性。
发明内容
为了解决以上技术问题,本发明提出了一种基于机器学习技术的对中标与非中标数据的平衡方法,利用smote算法并且结合CRM数据的特点,对CRM数据中数量不平衡的中标样本与非中标样本进行数量平衡。
本发明的技术方案是:
基于机器学习技术的对中标与非中标数据的平衡方法,包括三个步骤:
1)针对CRM数据的特点对数据特征进行选择和构造;
2)利用LabelEncoder方法将文本类信息转化为数字类信息;
3)利用smote算法对不平衡样本进行平衡。
进一步的,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南浪潮高新科技投资发展有限公司,未经济南浪潮高新科技投资发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910404508.0/2.html,转载请声明来源钻瓜专利网。