[发明专利]数据类型的识别、模型训练、风险识别方法、装置及设备有效
申请号: | 201710458652.3 | 申请日: | 2017-06-16 |
公开(公告)号: | CN107391569B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 程羽 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/35;G06K9/62;G06Q10/06 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王茹 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据类型 识别 模型 训练 风险 方法 装置 设备 | ||
本申请提供一种数据类型的识别、模型训练方法、装置及计算机设备,该模型训练方法包括:获取第一样本数据集,利用所述第一样本数据集对异常检测模型进行训练;通过所述异常检测模型从第二样本数据集中检测出异常样本数据集,利用所述异常样本数据集对分类模型进行训练。本实施例能降低分类模型的打分事件量,也能提供相对平衡的样本数据集进行训练,得到准确率较高的分类模型。具体应用时,待识别数据先输入至异常检测模型中,能快速区分出是否为第一类数据,对于异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,在线进行数据识别速度较快。
技术领域
本申请涉及数据分析技术领域,尤其涉及数据类型的识别、模型训练、风险识别方法、装置及设备。
背景技术
在数据分析领域中,经常需要识别数据的类型。例如,识别用户账户是否被盗用、识别交易是否为风险交易、识别用户行为是否为欺诈行为等等。相关技术中,通常根据历史数据确定黑白样本,其中,白样本表示历史数据中正常的一类样本,黑样本表示历史数据中出现账户盗用、高风险交易或欺诈行为等等事件的另一类样本。之后可基于分类算法,利用黑白样本训练得到分类器。
然而现实生活中,相对于正常事件,账户盗用、高风险或欺诈行为的事件的出现概率较低,因此,黑白样本在多数的场景下都是严重的不平衡,黑样本占总体样本的比例较低,因此会给分类器的训练带来较大挑战,分类器的识别准确率可能较低。
发明内容
为克服相关技术中存在的问题,本申请提供了数据类型的识别、模型训练、风险识别方法、装置及设备。
一种数据类型的识别方法,用于识别数据为第一类数据或第二类数据,所述方法包括:
获取待识别数据,利用预设的异常检测模型检测所述待识别数据是否为第一类数据;
将异常检测模型识别出的第一类数据之外的其他数据输入到分类模型进行识别,该分类模型将所述其它数据分类为第一类数据和第二类数据。
可选的,所述异常检测模型通过如下方式预先训练得到:
获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据的数量;
利用所述第一样本数据集对异常检测模型进行训练。
可选的,所述分类模型通过如下方式预先训练得到:
通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;
利用所述异常样本数据集对所述分类模型进行训练。
可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
一种模型训练方法,用于训练异常检测模型和分类模型;
所述异常检测模型用于检测输入数据出第一类数据;
所述分类模型用于对异常检测模型检测出的第一类数据之外的其他数据进行分类;
所述方法包括:
通过如下方式训练所述异常检测模型:获取第一样本数据集,所述第一样本数据集中第一类数据的数量大于第二类数据;利用所述第一样本数据集对异常检测模型进行训练;
通过如下方式训练所述分类模型:通过所述异常检测模型从第二样本数据集中检测出异常样本数据集;利用所述异常样本数据集对所述分类模型进行训练。
可选的,在利用所述异常样本数据集对所述分类模型进行训练前,所述方法还包括:
基于特征优化算法优化所述异常样本数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710458652.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:突破跨域请求限制的方法及其系统
- 下一篇:一种移动终端上的题目搜索方法及装置