[发明专利]基于自动化特征工程的反欺诈方法及系统在审
申请号: | 202110479370.8 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113139818A | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 褚阳;董肖凯 | 申请(专利权)人: | 苏宁金融科技(南京)有限公司 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06K9/62 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 盛安平 |
地址: | 211800 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动化 特征 工程 欺诈 方法 系统 | ||
本发明公开一种基于自动化特征工程的反欺诈方法及系统,通过自动化特征工程能够快速、高效、规范化的对特征进行扩增。该方法包括:获取交易数据集得到交易记录特征向量及欺诈结果向量,构建原始字段特征的特征集合F0;基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa;计算当前节点的特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;利用特征集合Fs及特征集合Fa作为训练集,训练反欺诈模型。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于自动化特征工程的反欺诈方法及系统。
背景技术
互联网金融欺诈正导致诸多社会经济问题,网络支付是互联网金融中的典型模式之一,此模式中的欺诈交易也是互联网金融欺诈的主要形式之一。通过构建基于机器学习的欺诈检测模型来识别欺诈交易的方法已成为网络支付反欺诈领域的主流思路。在构建欺诈检测模型的过程中,特征工程是最为关键的一步,特征的质量将直接影响模型的性能,通常这也是最为耗时且对相关领域的专业知识要求最高的步骤。现有网络支付欺诈检测模型在特征工程上主要是领域专家基于业务知识以手动构造的形式来开展,而在网络支付模式下欺诈场景众多,不同场景下的特征构造流程不尽相同,人工特征构建方法已不能满足与日俱增的反欺诈需求。
发明内容
本发明的目的在于提供一种基于自动化特征工程的反欺诈方法及系统,通过自动化特征工程能够快速、高效、规范化的对特征进行扩增,从而提升反欺诈模型的训练精度,确保反欺诈模型识别结果的准确性。
为了实现上述目的,本发明的第一方面提供一种基于自动化特征工程的反欺诈方法,包括:
获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
优选地,还包括:
分别进入左右两部分子树,判断当前节点中交易数据集样本数是否低于设定的最小阈值T,以及判断交易数据集的纯度是否高于设定的阈值G;
若前节点中交易数据集样本数低于设定的最小阈值T,且交易数据集的纯度高于设定的阈值G则到达叶子节点,结构树构建完毕;
若前节点中交易数据集样本数未低于设定的最小阈值T,和/或,交易数据集的纯度未高于设定的阈值G则重复构造下一节点的特征集合Fs及对应的所述特征集合Fa,直至到达叶子节点结构树构建完毕。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏宁金融科技(南京)有限公司,未经苏宁金融科技(南京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110479370.8/2.html,转载请声明来源钻瓜专利网。