[发明专利]一种不平衡样本的关联规则确定方法及装置在审
申请号: | 202110622409.7 | 申请日: | 2021-06-03 |
公开(公告)号: | CN113282686A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 魏乐;卢格润;李琨;郑方兰;朱良姝;白冰;田江;向小佳;丁永建;李璠 | 申请(专利权)人: | 光大科技有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/215 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张秀英 |
地址: | 100040 北京市石景*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不平衡 样本 关联 规则 确定 方法 装置 | ||
本发明提供了一种不平衡样本的关联规则确定方法及装置,其中,该方法包括:将原始数据转换为事务数据;将该事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;基于正负不平衡标记样本中的分类关联规则。该方法及装置可以解决相关技术中对于正负不平衡样本分类场景下,传统关联规则分类算法对系统资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题。本发明在实现过程中,更关注在不平衡样本条件下小样本作为目标变量的分类规则,从而避免挖掘整个数据集,节省了系统资源消耗。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种不平衡样本的关联规则确定方法及装置。
背景技术
金融欺诈,尤其在银行卡、信用卡等领域一直是金融行业实施风控的重要方向。虽然随着深度学习的发展,一系列AI反欺诈模型应用而生,但是从可理解、易推广和稳定性角度,基于规则的方法体系依然保有其强大的生存力。通过已有案例,基于数据挖掘分析找到可能的关联规则,再结合专家分析确定规则,是当前金融欺诈检测的一种有效方法。所以传统金融机构仍然依赖于构建基于规则的风控反欺诈模型,这其中规则特征库的生成就成为关键。但是不同于传统的人工归纳或线下调查,在大数据背景下,采用自动规则抽取+模型+专家分析的组合策略可以在保证原有解释性的基础上,提高挖掘效率。
关联分析作为一种数据挖掘的方法,因为其易于理解,归纳性好的特点,被广泛应用于生物、交通、电信和金融领域。将关联规则应用于分类问题,已经有基于Apriori的集成算法,基于多个分类关联规则的分类算法和采用贪婪算法直接从训练数据集中挖掘关联规则从而减少计算开销等等多种方法。总体上来说,基于关联规则的分类算法具有准确性高,鲁棒性好的特点。
但是在涉及到不平衡样本的二分类问题具体应用场景下,例如医疗诊断、轨道信号、金融欺诈。目标样本占总样本的比例较低,若直接套用传统关联规则分类算法,尤其当数据集中实例个数较多时,项集之间的组合产生大量候选项集,在候选项集中计算频繁项集,对于系统资源消耗较大;此外,在剪枝过程中,对于支持度和置信度的把握较为困难,阈值过低会保留过多冗余规则,造成过拟合,阈值过高则可能剪除大量目标样本上的关联规则,影响模型的推广。
针对相关技术中对于不平衡样本的分类场景,传统关联规则分类算法对系统资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题,尚未提出解决方案。
发明内容
本发明实施例提供了一种不平衡样本的关联规则确定方法及装置,以至少解决相关技术中对于不平衡样本的分类场景,传统关联规则分类算法对系统资源消耗较大,且关联规则筛取未考虑全样本信息,影响模型推广的问题。
根据本发明的一个实施例,提供了一种不平衡样本的关联规则确定方法,包括:
将原始数据转换为事务数据;
将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本;
基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则。
可选地,将所述事务数据中的正负不平衡样本数据进行分类标记,得到正负不平衡标记样本包括:
将所述事务数据划分为正常客户集与具有欺诈行为的异常客户集;
对所述事务数据中异常客户集和正常客户集进行标记,得到所述正负不平衡标记样本。
可选地,基于所述正负不平衡标记样本,确定所述正负不平衡样本数据中目标变量的分类关联规则包括:
通过FP-Growth确定所述异常客户集上的多个频繁项集;
从所述多个频繁项集中获取支持数大于支持数阈值的多个候选频繁项集;
确定所述多个候选频繁项集在所述正常客户集和所述异常客户集上的综合表现值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于光大科技有限公司,未经光大科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110622409.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种手工螺柱焊夹具
- 下一篇:一种数据资产的上架处理方法及装置