[发明专利]一种无序分类变量处理方法及装置在审

专利信息
申请号: 201810403750.1 申请日: 2018-04-28
公开(公告)号: CN108595669A 公开(公告)日: 2018-09-28
发明(设计)人: 夏耘海;李燕伟;王甲樑;夏虎 申请(专利权)人: 国信优易数据有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京超凡志成知识产权代理事务所(普通合伙) 11371 代理人: 魏彦
地址: 100070 北京市丰台*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 分类变量 子集 二分类 因变量 分组处理 分组结果 聚类处理 目标分类 分类 申请 分组 统计
【说明书】:

本申请提供了一种无序分类变量处理方法及装置,其中,该方法包括:获取无序分类变量集,其中,无序分类变量集包括至少两类无序分类变量,且对应因变量为二分类变量;针对无序分类变量集中的每一类无序分类变量,统计该类无序分类变量中因变量取值为二分类变量中目标分类值的无序分类变量在该类无序分类变量中的分类占比;基于各类无序分类变量的分类占比,对无序分类变量集进行聚类处理,得到多个无序分类变量子集;其中,每个无序分类变量子集包括至少一类无序分类变量,且每个无序分类变量子集为一个对应有序分类变量。本申请无需人为经验的参与即可实现分组,使得分组处理的效率较高,且进一步提升了分组结果的客观性和准确性。

技术领域

本申请涉及计算机处理技术领域,具体而言,涉及一种无序分类变量处理方法及装置。

背景技术

随着大数据时代的到来以及互联网技术的迅速发展,各行业的数据量呈现爆发式增长。在这些数据中,无序型的分类变量占了很大一部分比重。为了便于挖掘数据中的潜在价值,需要采用有效的处理方法对上述无序分类变量进行处理。其中,变量分组问题是变量处理方法中常见的问题。

针对变量分组问题,大多研究的是对连续型变量的分组。对于无序型的分类变量分组的相关研究较少,基本会采取两种处理方法:一是通过经验进行分组,二是不进行分组直接拿来使用。

然而,上述通过经验进行分组的方法效率较低,且不能确保分组的有效性,上述不进行分组直接使用的方法则对于分类较为广泛的多分类变量而言,不能确保后续建模等应用时的效果。

发明内容

有鉴于此,本申请实施例的目的在于提供一种无序分类变量处理方法及装置,在提高对无序分类变量进行分组处理的效率的同时,还提升了分组结果的客观性和准确性。

第一方面,本申请实施例提供了一种无序分类变量处理方法,所述方法包括:

获取无序分类变量集,其中,所述无序分类变量集包括至少两类无序分类变量,且对应因变量为二分类变量;

针对所述无序分类变量集中的每一类无序分类变量,统计该类无序分类变量中因变量取值为二分类变量中目标分类值的无序分类变量在该类无序分类变量中的分类占比;

基于各类无序分类变量的分类占比,对所述无序分类变量集进行聚类处理,得到多个无序分类变量子集;其中,每个无序分类变量子集包括至少一类无序分类变量,且每个无序分类变量子集为一个对应有序分类变量。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述基于各类无序分类变量的分类占比,对所述无序分类变量集进行聚类处理,得到多个无序分类变量子集,包括:

从所述无序分类变量集中随机选取出预设数量个分类作为聚类的质心;

将所述无序分类变量集中剩余的分类分配至距离最小的质心所对应的聚类中;其中,所述剩余的分类与每个质心之间的距离由两者之间的分类占比确定;

重新计算每个聚类的质心,并基于计算后的质心,重新对所述无序分类变量集中的每一分类进行聚类分配,直至在判断出更新后的质心与更新前的质心符合预设距离阈值时,停止聚类分配,得到聚类处理后的多个无序分类变量子集。

结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述方法还包括:

确定每个无序分类变量子集的类别赋值信息。

结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,在确定每个无序分类变量子集的类别赋值信息之前,所述方法还包括:

按照无序分类变量子集的分类占比由小到大的顺序,对各个无序分类变量子集进行排序,所述无序分类变量子集的分类占比由所述无序分类变量子集中各分类无序分类变量的分类占比确定;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据有限公司,未经国信优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810403750.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top