[发明专利]一种改进的过采样SMOTE算法在审

专利信息
申请号: 201910581817.5 申请日: 2019-06-30
公开(公告)号: CN110309202A 公开(公告)日: 2019-10-08
发明(设计)人: 高中文;王天健 申请(专利权)人: 哈尔滨理工大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06K9/62;G06Q40/02
代理公司: 暂无信息 代理人: 暂无信息
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种改进的过采样SMOTE算法,涉及SMOTE算法技术领域;它的步骤如下:将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:QUOTE 式中,N为信用卡训练集样本数据,样本个数为QUOTE  ,QUOTE  为信用卡正常交易数据,样本个数为QUOTE  ,QUOTE  为信用卡欺诈交易数据QUOTE  ;本发明采用K均值(K‑means)聚类和SMOTE算法生成新的数据,可以保证样本边界信息,克服样本重叠问题。
搜索关键词: 样本 信用卡欺诈 过采样 算法 信用卡 信用卡数据 训练集样本 交易数据 聚类中心 算法技术 算法生成 样本边界 样本数据 正常交易 重叠问题 中心点 聚类 式中 改进 交易 保证
【主权项】:
1.一种改进的过采样SMOTE算法,其特征在于:它的步骤如下:将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:式中,N为信用卡训练集样本数据,样本个数为 QUOTE , QUOTE 为信用卡正常交易数据,样本个数为 QUOTE , QUOTE 为信用卡欺诈交易数据 QUOTE 式中, QUOTE 为欺诈数据第i个类,该类样本数量为 QUOTE ,样本 QUOTE ( QUOTE )到所属类的距离为 QUOTE 且使 QUOTE , QUOTE 为欺诈样本中不属于任何类的孤立点,样本数量为 QUOTE ;期望训练集中欺诈数据占正常数据的 QUOTE ,则欺诈样本第i个类需要添加数据样本为:SMOTE算法合成新的人工数据,对于某个样本 QUOTE ,首先找到距离其最近的M个最邻近样本,从M个最邻近样本中有放回随机选择 QUOTE 个样本,记为 QUOTE 式中, QUOTE , QUOTE 为 QUOTE 的M个邻域中距离 QUOTE 类中心最远的距离, QUOTE 为 QUOTE 中下标的数值, QUOTE 为已新生成的距离 QUOTE 类中心距离小于 QUOTE 的样本个数; QUOTE 为正整数A向上取整;对于每一个 QUOTE ,按如下公式生成新的样本;式中, QUOTE 为0‑1之间测随机数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910581817.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top