[发明专利]一种改进的过采样SMOTE算法在审
申请号: | 201910581817.5 | 申请日: | 2019-06-30 |
公开(公告)号: | CN110309202A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 高中文;王天健 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06K9/62;G06Q40/02 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种改进的过采样SMOTE算法,涉及SMOTE算法技术领域;它的步骤如下:将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:QUOTE |
||
搜索关键词: | 样本 信用卡欺诈 过采样 算法 信用卡 信用卡数据 训练集样本 交易数据 聚类中心 算法技术 算法生成 样本边界 样本数据 正常交易 重叠问题 中心点 聚类 式中 改进 交易 保证 | ||
【主权项】:
1.一种改进的过采样SMOTE算法,其特征在于:它的步骤如下:将信用卡欺诈交易使用K均值聚类,得到a个聚类中心,计算每个类中的点到该类中心点的距离p,信用卡数据集样本数据表示为:
式中,N为信用卡训练集样本数据,样本个数为 QUOTE ![]()
, QUOTE ![]()
为信用卡正常交易数据,样本个数为 QUOTE ![]()
, QUOTE ![]()
为信用卡欺诈交易数据 QUOTE ![]()
;
式中, QUOTE ![]()
为欺诈数据第i个类,该类样本数量为 QUOTE ![]()
,样本 QUOTE ![]()
( QUOTE ![]()
)到所属类的距离为 QUOTE ![]()
且使 QUOTE ![]()
, QUOTE ![]()
为欺诈样本中不属于任何类的孤立点,样本数量为 QUOTE ![]()
;期望训练集中欺诈数据占正常数据的 QUOTE ![]()
,则欺诈样本第i个类需要添加数据样本为:
SMOTE算法合成新的人工数据,对于某个样本 QUOTE ![]()
,首先找到距离其最近的M个最邻近样本,从M个最邻近样本中有放回随机选择 QUOTE ![]()
个样本,记为 QUOTE ![]()
;
式中, QUOTE ![]()
, QUOTE ![]()
为 QUOTE ![]()
的M个邻域中距离 QUOTE ![]()
类中心最远的距离, QUOTE ![]()
为 QUOTE ![]()
中下标的数值, QUOTE ![]()
为已新生成的距离 QUOTE ![]()
类中心距离小于 QUOTE ![]()
的样本个数; QUOTE ![]()
为正整数A向上取整;对于每一个 QUOTE ![]()
,按如下公式生成新的样本;
式中, QUOTE ![]()
为0‑1之间测随机数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910581817.5/,转载请声明来源钻瓜专利网。
- 上一篇:作业定制方法及系统
- 下一篇:一种基于大数据的交互式和自定义数据建模系统