[发明专利]一种无序分类变量处理方法及装置在审
申请号: | 201810403750.1 | 申请日: | 2018-04-28 |
公开(公告)号: | CN108595669A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 夏耘海;李燕伟;王甲樑;夏虎 | 申请(专利权)人: | 国信优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 魏彦 |
地址: | 100070 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类变量 子集 二分类 因变量 分组处理 分组结果 聚类处理 目标分类 分类 申请 分组 统计 | ||
1.一种无序分类变量处理方法,其特征在于,所述方法包括:
获取无序分类变量集,其中,所述无序分类变量集包括至少两类无序分类变量,且对应因变量为二分类变量;
针对所述无序分类变量集中的每一类无序分类变量,统计该类无序分类变量中因变量取值为二分类变量中目标分类值的无序分类变量在该类无序分类变量中的分类占比;
基于各类无序分类变量的分类占比,对所述无序分类变量集进行聚类处理,得到多个无序分类变量子集;其中,每个无序分类变量子集包括至少一类无序分类变量,且每个无序分类变量子集为一个对应有序分类变量。
2.根据权利要求1所述的方法,其特征在于,所述基于各类无序分类变量的分类占比,对所述无序分类变量集进行聚类处理,得到多个无序分类变量子集,包括:
从所述无序分类变量集中随机选取出预设数量个分类作为聚类的质心;
将所述无序分类变量集中剩余的分类分配至距离最小的质心所对应的聚类中;其中,所述剩余的分类与每个质心之间的距离由两者之间的分类占比确定;
重新计算每个聚类的质心,并基于计算后的质心,重新对所述无序分类变量集中的每一分类进行聚类分配,直至在判断出更新后的质心与更新前的质心符合预设距离阈值时,停止聚类分配,得到聚类处理后的多个无序分类变量子集。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定每个无序分类变量子集的类别赋值信息。
4.根据权利要求3所述的方法,其特征在于,在确定每个无序分类变量子集的类别赋值信息之前,所述方法还包括:
按照无序分类变量子集的分类占比由小到大的顺序,对各个无序分类变量子集进行排序,所述无序分类变量子集的分类占比由所述无序分类变量子集中各分类无序分类变量的分类占比确定;
所述确定每个无序分类变量子集的类别赋值信息,包括:
对排序后的各个无序分类变量子集进行顺序赋值,得到每个无序分类变量子集的类别赋值信息。
5.根据权利要求3所述的方法,其特征在于,所述确定每个无序分类变量子集的类别赋值信息,包括:
针对每个无序分类变量子集,计算所述因变量取值为二分类变量中目标分类值的无序分类变量在该无序分类变量子集的第一分类占比,以及,所述因变量取值为二分类变量中非目标分类值的无序分类变量的无序分类变量在该无序分类变量子集的第二分类占比,计算第一分类占比与第二分类占比的比值,得到第一比值;
针对每个无序分类变量子集,计算所述因变量取值为二分类变量中目标分类值的无序分类变量在所述多个无序分类变量子集的第三分类占比,以及,所述因变量取值为二分类变量中非目标分类值的无序分类变量在所述多个无序分类变量子集的第四分类占比,计算第三分类占比与第四分类占比的比值,得到第二比值;
基于所述第一比值和所述第二比值,确定每个无序分类变量子集的类别赋值信息。
6.根据权利要求3所述的方法,其特征在于,所述无序分类变量为预设分类模型中的无序特征变量;
获取无序分类变量集,包括:
获取无序特征变量;
针对所述无序分类变量集中的每一类无序分类变量,统计该类无序分类变量中因变量取值为二分类变量中目标分类值的无序分类变量在该类无序分类变量中的分类占比,包括:
针对所述无序特征变量集中的每一类无序特征变量,统计该类无序特征变量中因变量取值为二分类变量中目标分类值的无序特征变量在该类无序特征变量中的分类占比;
基于各类无序分类变量的分类占比,对所述无序分类变量集进行聚类处理,得到多个无序分类变量子集,其中,每个无序分类变量子集包括至少一类无序分类变量,且每个无序分类变量子集为一个对应有序分类变量,包括:
基于各类无序特征变量的分类占比,对所述无序特征变量集进行聚类处理,得到多个无序特征变量子集,其中,每个无序特征变量子集包括至少一类无序特征变量,且每个无序特征变量子集为一个对应有序特征变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810403750.1/1.html,转载请声明来源钻瓜专利网。