[发明专利]基于特征转换函数的数据挖掘方法、设备及可读介质在审
| 申请号: | 202111640805.9 | 申请日: | 2021-12-29 |
| 公开(公告)号: | CN114490809A | 公开(公告)日: | 2022-05-13 |
| 发明(设计)人: | 张菲兰 | 申请(专利权)人: | 四川新网银行股份有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/22;G06F16/2455;G06F16/242 |
| 代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 濮云杉 |
| 地址: | 610094 四川省成都市成都*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 特征 转换 函数 数据 挖掘 方法 设备 可读 介质 | ||
1.基于特征转换函数的数据挖掘方法,其特征在于,包括如下步骤:
步骤1:通过SQL语句提取数据库中挖掘特征所需要的原始数据,并将多维原始数据进行压缩处理,形成特征转换函数所需要的数据结构,并生成数据表结构,将生成的数据表结构存储到存储器新建的存储空间中;
步骤2:调用存储器中存储的数据表结构,将数据表结构转换成对应Python环境的list和dict数据格式,作为特征生成的输入项;
步骤3:构建特征转换函数,通过所述特征转换函数将步骤2中转换为list和dict数据格式的数据转换为最终的特征。
2.根据权利要求1所述的基于特征转换函数的数据挖掘方法,其特征在于,步骤1具体包括以下步骤:
步骤1.1:从原始底层表中提取特征加工过程中需要的所有字段,利用“concat”函数将每个字段固定呈字符串或者数值的格式,并压缩为1条记录,定义有Y个用户,每个用户有N条记录,形成Y×N维的数据表;
步骤1.2:通过“group by”方法和“collect_list”函数,将Y×N维的数据表中的数据全部聚合为用户维度的数据,N条记录被压缩为1条数据,形成Y×1的数据表;
步骤1.3:定义有M个Y×1的数据表,将M个Y×1的数据表结合在一起,最终形成Y×M的原始数据表。
3.根据权利要求1所述的基于特征转换函数的数据挖掘方法,其特征在于,步骤3具体包括以下步骤:
步骤3.1:对步骤2中转换成对应Python环境的list和dict数据格式的数据做预处理和加工;
步骤3.2:定义每个特征的初始默认值,然后按照挖掘的逻辑计算每个特征的值。
4.根据权利要求3所述的基于特征转换函数的数据挖掘方法,其特征在于,所述步骤3.1包括对原始数据进行特征转换以及增加数据衍生字段。
5.根据权利要求1所述的基于特征转换函数的数据挖掘方法,其特征在于,步骤1中所述的压缩处理为:多维原始数据经过两次无损信息压缩。
6.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器上并可被所述处理器执行的数据挖掘程序,其中所述数据挖掘程序被所述处理器执行时,实现如权利要求1至5中任一项所述的数据挖掘方法的步骤。
7.一种计算机可读储存介质,其特征在于,所述计算机可读存储介质上存储有数据挖掘程序,其中所述程序被处理器执行时,实现如权利要求1至5中任一项所述的数据挖掘方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111640805.9/1.html,转载请声明来源钻瓜专利网。





