[发明专利]一种分布式数据挖掘模型评估的方法与系统在审
申请号: | 201611179166.X | 申请日: | 2016-12-19 |
公开(公告)号: | CN106599230A | 公开(公告)日: | 2017-04-26 |
发明(设计)人: | 娄海凤;张立军 | 申请(专利权)人: | 北京天元创新科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京路浩知识产权代理有限公司11002 | 代理人: | 汤财宝 |
地址: | 100193 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据 挖掘 模型 评估 方法 系统 | ||
技术领域
本发明涉及数据分析挖掘技术领域,更具体地,涉及一种分布式数据挖掘模型评估的方法与系统。
背景技术
目前,随着大数据时代的到来,海量数据的分类应用问题越来越多,数据挖掘成为一种崭新的商业信息处理技术;对数据及数据的挖掘处理进行建模的数据挖掘模型越来越重要。其中,对问题进行分类挖掘提取的具有分类算法的数据挖掘模型的预测能力成为更多用户青睐的对象。
而数据挖掘模型的种类及其所使用的算法非常多,对于某一类具体数据的挖掘,模型也有优劣之分。如何在众多数据挖掘模型中选择性能满足要求的模型非常重要,因为好的数据挖掘模型不仅准确率高而且速度快。
传统的对数据挖掘模型的选择,一般是由数据分析人员逐个构建多个模型并对比分模型结果,利用专业知识进行判别而选择的最佳模型。这种人工的模型评估的方法,需要评估人具有专业的知识储备,且评估结果的有效性和适用性具备较强的主观性。
传统的智能算法评估模型采用常规的并行计算方式,有两个问题,其一是模型不支持分布式算法,其二是在使用大量数据进行算法评估时,模型速度较慢。
现有数据挖掘产品如R、SPSS Modeler、RapidMiner等,模型计算效率低下,模型评估流程复杂。
基于Spark数据分析架构的针对分类模型的模型评估模块中,包含部分分类算法的分布式评估指标代码包,但远不能满足其他分类模型的评估。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的分布式数据挖掘模型评估的方法与系统。
根据本发明的一个方面,提供一种分布式数据挖掘模型评估的方法,包括:
S1,利用特定评估指标集生成模型评估模块;
S2,基于评估数据集,利用所述模型评估模块以分布式策略对至少一个数据挖掘模型进行评估。
进一步,所述S1进一步包括:
S1.1,建立评估指标库,将所述特定评估指标集配置到所述评估指标库中;
S1.2,生成一个包含所述特定评估指标集中的全部评估指标的模型评估模块。
进一步,所述S2进一步包括:
S2.1,从大数据中获取所述评估数据集,选取数据挖掘算法对所述评估数据集进行数据分析,获得数据挖掘模型;
S2.2,基于Spark分布式计算框架,利用所述模型评估模块对所述数据挖掘模型进行评估,以评估数据挖掘模型或数据挖掘算法的优劣。
具体的,所述特定评估指标集中的评估指标包括准确率、召回率、F-测量、ROC曲线、AUC面积、均方误差、均方根误差和平均绝对误差。
进一步,所述S2.1进一步包括:
基于一个数据挖掘算法,配置不同的参数对所述评估数据集进行数据分析,获得用于评估数据挖掘模型的多个数据挖掘模型;或者
基于多个数据挖掘算法,对所述评估数据集进行数据分析,获得用于评估数据挖掘算法的多个数据挖掘模型。
进一步,所述S2.2进一步包括:
S2.2.1,将所述模型评估模块配置为评估流程节点;
S2.2.2,基于所述评估流程节点和预设的评估指标,利用所述Spark分布式计算框架对待评估的数据挖掘模型进行评估,获得评估结果,并将所述评估结果写入数据库。
进一步,所述S2.2进一步包括:
S2.2.4,通过增益图和提升图对所述评估结果进行显示。
进一步,所述S2.2进一步包括:
所述模型评估模块对基于一个数据挖掘算法的多个数据挖掘模型分别进行评估,获得对所述多个数据挖掘模型的评估结果;或者
所述模型评估模块对基于多个数据挖掘算法的多个数据挖掘模型分别进行评估,获得对所述多个数据挖掘算法的评估结果。
具体的,所述预设的评估指标为所述特定评估指标集中的至少一种。
根据本发明的另一个方面,一种分布式数据挖掘模型评估的系统,包括评估模块生成模块和模型评估模块,
所述评估模块生成模块,用于利用特定评估指标集生成模型评估模块;
所述模型评估模块,用于基于评估数据集,利用所述模型评估模块以分布式策略对至少一个数据挖掘模型进行评估。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京天元创新科技有限公司,未经北京天元创新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611179166.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于Flex的业务系统的构建方法及装置
- 下一篇:页面显示方法及装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置