[发明专利]数据离散化方法、装置、计算机设备及存储介质在审
申请号: | 201810031540.4 | 申请日: | 2018-01-12 |
公开(公告)号: | CN108170837A | 公开(公告)日: | 2018-06-15 |
发明(设计)人: | 晏存 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市精英专利事务所 44242 | 代理人: | 林燕云 |
地址: | 518000 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种数据离散化方法、装置、计算机设备及存储介质,该方法包括:基于熵的数据离散化,将业务数据的取值范围离散以生成离散数据集合并计算离散数据集合的信息熵,其中离散数据集合包括多个数据区间;根据预设合并规则预合并离散数据集合中的数据区间以得到多个预合并数据区间并计算预合并数据区间的信息熵;将离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合并计算目标数据集合的信息熵以及区间损失率;根据离散数据集合的信息熵和目标数据集合的信息熵计算熵损失率;若熵损失率大于区间损失率,输出目标数据集合以完成对业务数据的数据离散化。该方法提高了数据离散化的效果,有利于数据挖掘和机器学习。 1 | ||
搜索关键词: | 离散数据 集合 数据区间 离散化 信息熵 损失率 合并 计算机设备 存储介质 目标数据 数据集合 业务数据 最大信息熵 合并规则 机器学习 计算目标 输出目标 数据挖掘 预设 申请 | ||
基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
判断所述熵损失率是否大于所述区间损失率;
若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
2.根据权利要求1所述的数据离散化方法,其特征在于,所述判断所述熵损失率是否大于所述区间损失率之后,还包括:若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
3.根据权利要求1所述的数据离散化方法,其特征在于,所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,包括:预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间。
4.根据权利要求1所述的数据离散化方法,其特征在于,所述计算所述离散数据集合的信息熵以及计算所述预合并数据区间的信息熵,包括:采用信息熵的计算公式计算所述离散数据集合的信息熵以及计算所述预合并数据区间的信息熵,所述信息熵的计算公式为:
其中,n为大于1的正整数,i为1到n之间的正整数,pi为第i数据出现的概率,H(p)为信息熵。
5.根据权利要求4所述的数据离散化方法,其特征在于,所述计算所述目标数据集合的区间损失率,包括:采用预设区间损失率公式计算所述目标数据集合的区间损失率,所述预设区间损失率公式为:Lq=x/N
其中,Lq为区间损失率,x为每次合并后损失的数据区间数,N为离散数据集合的数据区间数;
所述根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率,包括:根据所述离散数据集合的信息熵和所述目标数据集合的信息熵采用预设熵损失率公式计算所述目标数据集合的熵损失率,所述预设熵损失率公式为:
Hq=(G0‑G)/G0
其中,Hq为熵损失率,G0为所述离散数据集合的信息熵,G为所述目标数据集合的信息熵。
6.一种数据离散化装置,其特征在于,包括:离散生成计算单元,用于基于熵的数据离散化,将业务数据的取值范围离散以生成相应的离散数据集合,并计算所述离散数据集合的信息熵,其中所述离散数据集合包括多个数据区间;
第一合并计算单元,用于根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间,并计算所述预合并数据区间的信息熵;
第二合并计算单元,用于将所述离散数据集合中具有最大信息熵的预合并数据区间进行合并作为目标数据集合,并计算所述目标数据集合的信息熵以及区间损失率;
熵损失率计算单元,用于根据所述离散数据集合的信息熵和所述目标数据集合的信息熵计算所述目标数据集合的熵损失率;
损失率判断单元,用于判断所述熵损失率是否大于所述区间损失率;
数据集合输出单元,用于若所述熵损失率大于所述区间损失率,输出所述目标数据集合以完成对所述业务数据的取值范围的数据离散化。
7.根据权利要求6所述的数据离散化装置,其特征在于,还包括:返回循环执行单元,用于若所述熵损失率不大于所述区间损失率,将所述目标数据集合设为所述离散数据集合并返回执行所述根据预设合并规则预合并所述离散数据集合中的数据区间以得到多个预合并数据区间的步骤,直至所述熵损失率大于所述区间损失率。
8.根据权利要求6所述的数据离散化装置,其特征在于,所述第一合并计算单元,具体用于预合并所述离散数据集合中相邻的两个数据区间以得到多个预合并数据区间。9.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的数据离散化方法。10.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1‑5任一项所述的数据离散化方法。该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810031540.4/,转载请声明来源钻瓜专利网。