[发明专利]一种基于交易数据的机器学习反欺诈监测系统有效
申请号: | 201610981804.3 | 申请日: | 2016-11-08 |
公开(公告)号: | CN106682067B | 公开(公告)日: | 2018-05-01 |
发明(设计)人: | 孙斌杰;黄滔;王新根;高杨;李云领;唐迪佳;乔阳 | 申请(专利权)人: | 浙江邦盛科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q40/04 |
代理公司: | 杭州求是专利事务所有限公司33200 | 代理人: | 刘静,邱启旺 |
地址: | 310012 浙江省杭州市西湖*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于交易数据的机器学习反欺诈监测系统,包括管理平台、ETL模块、采样引擎、流处理引擎、训练引擎、预测引擎和决策引擎;流处理引擎通过流式大数据处理对庞大的交易原始数据进行特征的快速提取和计算,从海量原始数据中得到有代表性的特征,充分提取数据中的信息。模型训练模块使用多种针对资金损失率、黑样本查全率优化过的机器学习模型和集成学习框架,得到的是针对某个指标优化的复合模型,克服了单个模型带来的过拟合、不稳定的缺陷,提高了模型的稳定性和泛化能力;模型训练模块通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性,避免欺诈变异带来的模型失效问题。 | ||
搜索关键词: | 一种 基于 交易 数据 机器 学习 欺诈 监测 系统 | ||
【主权项】:
一种基于交易数据的机器学习反欺诈监测系统,其特征在于,该系统包括管理平台、ETL模块、采样引擎、流处理引擎、训练引擎、预测引擎和决策引擎;所述管理平台提供每个模块的配置信息,并发起模型训练请求和预测请求,对模型进行管理和更新操作;所述配置信息包括ETL模块所需的数据时间区间,采样引擎所需的数据库字段,流处理引擎所需的特征名称和计算方式,训练引擎所需的算法名称和算法参数;所述ETL模块根据管理平台的配置信息,提取原始数据库数据,进行数据抽取、转换、入库操作;所述数据转换操作主要对数据进行清洗和标准化,包括两部分:将原始数据库自定义的数据转化为标准数据;将机器学习模型无法处理的字段进行转化;数据入库操作将处理完毕的数据存入任意常用数据库;所述采样引擎根据管理平台的配置信息对原始数据进行采样,从原始数据中提取流处理引擎需要的数据库字段;所述流处理引擎根据管理平台配置的特征名称和计算方式,对采样数据进行特征提取和计算;所述训练引擎包括数据清洗、模型训练、模型评估;所述数据清洗,对数据进行缺失值处理、归一化处理;所述模型训练,根据设定的模型参数,利用清洗后的特征数据进行训练,具体为:读取管理平台配置的算法名称和算法参数,调用常见的机器学习算法,包括有监督算法和无监督算法进行学习;有监督算法包括逻辑回归、线性回归、支持向量机、决策树算法;无监督算法包括k‐means聚类;所述模型评估,利用新的数据集对训练好的模型进行评价,根据输出的查全率、查准率,KS值,ROC曲线指标对模型质量进行评价,如果质量符合要求即可进行模型部署和使用;所述模型训练模块通过预先设置的更新时间,自动获取最新数据并重新训练模型,从而使模型始终保持有效性;所述训练引擎中的机器学习算法,针对黑样本查全率进行改造,具体为:给黑样本损失函数赋以比白样本大的权重,使其更倾向于找出更多的黑样本;或者,对黑样本进行过采样,白样本进行欠采样;或者,在损失函数后增加正则项,降低模型复杂度,提高模型范化能力;或者,采用集成学习框架,克服单模型的过拟合;针对资金损失率进行改造,对高金额样本赋以比低金额大的权重,使模型更倾向于少分错高金额样本;或者,根据单笔交易金额动态调整概率阈值,使对高金额的交易更难被判别为白样本;针对算法性能做优化,使用GPU加速算法中能够并行化执行的函数,大大降低训练和预测时间;或者,使用线性代数库实现算法底层的计算操作;或者,使用多线程技术并行化实现算法;所述预测引擎调用训练好的模型对依次流过ETL模块、采样引擎、流处理引擎的实际交易数据进行判别,输出属于正常交易的概率和属于欺诈交易的概率,将预测结果传给决策引擎;所述决策引擎根据预测引擎的输出,对该笔交易的危险性进行决策。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江邦盛科技有限公司,未经浙江邦盛科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610981804.3/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置