[发明专利]一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法有效
| 申请号: | 201910726630.X | 申请日: | 2019-08-07 |
| 公开(公告)号: | CN110516853B | 公开(公告)日: | 2020-12-29 |
| 发明(设计)人: | 朱容波;王俊;王德军;张静静 | 申请(专利权)人: | 中南民族大学 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/26;G06K9/62 |
| 代理公司: | 湖北武汉永嘉专利代理有限公司 42102 | 代理人: | 胡建平;刘琰 |
| 地址: | 430074 湖北省武*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 采样 改进 adaboost 算法 脱贫 时间 预测 方法 | ||
1.一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,该方法包括以下步骤:
训练阶段:
获取贫困户数据库,通过入库贫困户相关基本信息进行整理,提取致贫敏感信息,作为模型的输入,即训练样本;通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限,作为模型的输出;
在建模过程中采用自适应聚类的近邻欠采样技术对AdaBoost算法进行改进,得到了ACNUSBoost算法,通过自适应聚类算法对训练样本中的多数类样本进行聚类,针对每个簇的聚类中心保留一定比例的近邻样本作为代表性样本,随机去除部分剩余的多数类样本,少数类样本数量保持不变;并对分类器进行多次线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型;
测试阶段:
输入待预测的贫困户数据,通过基于ACNUSBoost算法的脱贫时间预测模型,输出预测的脱贫时间;
该方法中采用K均值聚类作为近邻欠采样技术中的聚类算法,在确定K值的过程中,首先进行初始聚类,然后比较此时各个聚类簇中的覆盖准确率与错误率的差值,选择差值较大的K,其中K的范围是n为样本数;使用K-means++算法确定初始聚类中心,通过欧式距离度量样本之间的相似性;
该方法中改进后的ACNUSBoost算法具体包括以下步骤:
步骤1、初始化训练样本的初始权重,各个训练样本的初始权重均相同,初始权重为
步骤2、通过自适应聚类的近邻欠采样技术,即ACNUS技术,处理训练样本,对处理后的训练样本集进行训练,得到多个基分类器,并更新每个训练样本的权重;
步骤3、根据更新后的权重,对基分类器进行线性组合,得到基于ACNUSBoost算法的脱贫时间预测模型;
步骤2的具体方法为:
步骤2.1、对训练样本集中t=1,2,3,…,T,使用ACNUS技术处理多数类样本,产生训练样本子集Dt,其中Dt={x1,x2,…xN};
步骤2.2、对训练样本子集Dt进行训练,得到基分类器Gt(x)=f(Dt);
步骤2.3、计算Gt(x)在训练样本子集Dt上的分类错误率et;
et=P(Gt(xi)≠yi)
如果et0.5,则迭代停止;
步骤2.4、计算基分类器Gt(x)的权重αt;
步骤2.5、对于训练样本子集Dt中的每一个样本更新其权重;
步骤2.6、t+1,判断t是否大于T,若是执行下一步,否则执行步骤2.1;
步骤2.1中ACNUS算法的具体方法为:
步骤2.1.1、确定聚类簇K的个数;在范围内通过二分策略对K进行取值,每次取值后对样本进行划分并随机生成类中心,并计算上述划分类覆盖样本正确率与错误率的差值,选择差值最大时K的取值;
步骤2.1.2、使用K均值聚类算法对多数类样本进行聚类,得到K个聚类中心U={u1,u2,…uk},则每个聚类簇样本数目是
步骤2.1.3、设置采样子集i=1;
步骤2.1.4、保留第i个聚类中心μi的近邻样本,样本数为Pi;
步骤2.2.5、在剩余的个样本中随机去除Oi个样本,并将其移入到子集Q中;
步骤2.1.6、i+1,判断i是否大于K,若是则执行步骤2.1.7,否则返回执行步骤2.1.4;
步骤2.1.7、得到欠采样后的样本集D'=D-Q,此时Dt=D';
步骤3中进行线性组合的方法为:
其中,f(x)为组合后的分类器,基分类器Gt(x)的对应权重为αt。
2.根据权利要求1所述的基于欠采样改进的AdaBoost算法的脱贫时间预测方法,其特征在于,该方法中选取模型输入和输出的方法具体为:
通过对入库贫困户相关基本信息进行整理,提取贫困户的致贫敏感信息包括:贫困户类型、致贫原因、子女数、是否有学生在读、耕地面积、技能程度以及享受的政策,作为模型的输入X,即X={x1,x2,x3,x4,...,xi};通过抽取贫困户的入库日期以及脱贫日期,得到贫困户从入库到脱贫所用的时间即脱贫年限Y,即Y={y1,y2,y3,...,ym},将其作为模型输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学,未经中南民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910726630.X/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





