[发明专利]数据处理方法、装置、计算机设备及存储介质有效
申请号: | 201910965010.1 | 申请日: | 2019-10-11 |
公开(公告)号: | CN110880014B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 秦文力;张密;韩丙卫 | 申请(专利权)人: | 中国平安财产保险股份有限公司 |
主分类号: | G06F18/25 | 分类号: | G06F18/25;G06F18/15;G06F18/214;G06F18/243;G06F18/2433 |
代理公司: | 深圳众鼎专利商标代理事务所(普通合伙) 44325 | 代理人: | 詹建新 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 计算机 设备 存储 介质 | ||
1.一种数据处理方法,其特征在于,包括:
获取待处理数据,对所述待处理数据进行预处理,得到标准数据集,其中,所述预处理包括缺失值处理、异常值处理、去重处理或噪音数据处理中的至少一项;
采用孤立森林算法对所述标准数据集进行迭代清洗,生成目标数据集;
对所述目标数据集进行特征提取,得到所述目标数据集的基本特征;所述基本特征是指反映目标数据集的性质的一组特征数据;
根据预设策略确定每一所述基本特征在所述目标数据集中的权重;
根据每一所述基本特征在所述目标数据集中的权重,确定所述目标数据集的必要特征;所述必要特征是指权重排在前n位的基本特征;
采用GBDT特征组合算法对每一所述基本特征进行特征构造,生成交叉组合特征;
将所述交叉组合特征和所述必要特征进行组合,得到目标特征数据;
所述采用孤立森林算法对所述标准数据集进行迭代清洗,生成目标数据集,包括:
获取标准数据集,将所述标准数据集输入预设的孤立森林模型中进行数据筛选,得到正常检测数据;
判断所述正常检测数据的数量值与设定目标值之间的数值差是否大于预设阈值;
若所述正常检测数据的数量值与所述设定目标值之间的数值差大于所述预设阈值,则基于所述正常检测数据对所述孤立森林模型进行迭代训练和数据筛选,直至生成的所述正常检测数据的数量值与所述设定目标值之间的数值差等于或小于所述预设阈值,则将得到的正常检测数据组成目标数据集。
2.如权利要求1所述的数据处理方法,其特征在于,所述将所述标准数据集输入所述孤立森林模型中进行数据筛选,得到正常检测数据,包括:
将所述标准数据集输入所述孤立森林模型中,对所述孤立森林模型中的每一棵随机二叉树进行遍历,确定所述标准数据集中的每一标准数据在所述孤立森林模型中的平均高度值;
将所述平均高度值大于预设的高度阈值的所述标准数据确定为正常检测数据。
3.如权利要求1所述的数据处理方法,其特征在于,所述对所述目标数据集进行特征提取,得到所述目标数据集的基本特征,包括:
获取特征参数集,所述特征参数集包括M个参数标识,M为正整数;
根据每一所述参数标识获取对应的特征提取脚本;
采用所述特征提取脚本对所述目标数据集进行特征提取,得到所述目标数据集的基本特征。
4.如权利要求1所述的数据处理方法,其特征在于,所述采用GBDT特征组合算法对每一所述基本特征进行特征构造,生成交叉组合特征,包括:
获取样本特征,对所述样本特征进行训练,生成目标GBDT模型;
将所述基本特征输入所述目标GBDT模型中进行特征构造,生成交叉组合特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安财产保险股份有限公司,未经中国平安财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910965010.1/1.html,转载请声明来源钻瓜专利网。