[发明专利]数据处理方法及装置、计算机可读存储介质、电子设备有效
申请号: | 201811117037.7 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109408583B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 郭继昌 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/26 | 分类号: | G06F16/26;G06N99/00 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 刘抗美 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 可读 存储 介质 电子设备 | ||
本公开属于大数据技术领域,涉及一种数据处理方法及装置、计算机可读存储介质、电子设备,该数据处理方法包括:获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;分别将各所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;根据多个所述单变量分箱决策树获得与各所述维度对应的目标分箱;将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。该方法一方面能够消除数据噪音,提高模型的稳定性;另一方面,分箱方法简单,不需要数据挖掘人员具有丰富的业务背景知识;并且通过对数据分箱,减少了大量重复的值,提高了算法的速度。
背景技术
随着经济发展和社会进步,计算机、智能手机等智能终端设备的应用越来越广泛,为了获取有价值的数据信息,通常需要对数据进行挖掘、分析。
由于数据在测量时会存在随机误差、异常值、极端值等数值噪音,数值噪音会影响模型的精确性,另外测量数据会存在大量不重复的值,直接使用的话会影响算法的速度,并且部分算法不支持连续变量,因此需要对数据进行预处理。通常采用分箱的手段将数据进行离散化,同时消除数值噪音、减少重复的值。但是常用的分箱方法主要是等频、等距等分箱方法,该些分箱方法手段单一,频数和距离不易确定,并且需要数据挖掘人员对数据有足够的业务背景认知,否则不能有效分箱,导致模型的精确性较低。
因此,本领域亟需一种新的数据处理方法及装置。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种数据处理方法、数据处理装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服数值噪音对模型稳定性的影响,同时能够避免数据挖掘人员在缺少业务背景知识的情况下无法有效地离散化数据,以提高模型的灵活度和计算速度。
根据本公开的一个方面,提供一种数据处理方法,其特征在于,包括:
获取多个样本数据,各所述样本数据包括一个或多个维度的子样本数据;
分别将所述维度的所述子样本数据划分为多组分箱,并根据所述分箱形成多个单变量分箱决策树;
根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱;
将所述目标分箱输入至预测模型,以对所述预测模型进行机器训练。
在本公开的示例性实施例中,分别将所述维度的所述子样本数据划分为多组分箱,包括:
根据不同的频率将所述子样本数据划分为多组分箱;或者
根据预设节点数将所述子样本数据划分为多组分箱。
在本公开的示例性实施例中,各所述样本数据包括目标数据,根据所述分箱形成多个单变量分箱决策树,包括:
以所述子样本数据为根节点、所述分箱为非叶节点、且所述目标数据为叶节点,形成所述单变量分箱决策树。
在本公开的示例性实施例中,根据多个所述单变量分箱决策树获得与所述维度对应的目标分箱,包括:
计算各所述单变量分箱决策树中各叶节点的子信息值;
根据所述子信息值计算各所述单变量分箱决策树的信息值;
比较各所述单变量分箱决策树的信息值的大小,并以具有最小信息值的所述单变量分箱决策树对应的分箱作为所述目标分箱。
在本公开的示例性实施例中,根据所述子信息值计算各所述单变量分箱决策树的信息值,包括:
将各所述单变量分箱决策树中各所述叶节点的所述子信息值相加以获得所述信息值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811117037.7/2.html,转载请声明来源钻瓜专利网。