[发明专利]一种基于任务可视化拖拽的spark机器学习系统及学习方法在审
申请号: | 202010059133.1 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111240662A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 张文华;段飞虎;印东敏;马学冬;冯自强;张宏伟 | 申请(专利权)人: | 同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F16/2458;G06F16/26;G06N20/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 王泽云 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 可视化 spark 机器 学习 系统 学习方法 | ||
本发明公开了一种基于任务可视化拖拽的spark机器学习系统及方法,该系统包括流程设计器、流程解析器与流程调度器;所述方法包括将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
技术领域
本发明涉及机器学习、数据挖掘、流程控制技术领域,尤其涉及一种基于任务可视化拖拽的spark机器学习系统及学习方法。
背景技术
随着数据的积累以及数据智能、数据驱动等思想的传播,机器学习算法正在成为一种普世的基础能力往外输出,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科,未来随着算法和计算能力的发展,机器学习会在金融、医疗、教育、安全等各个领域有更深层次的应用。
现有的机器学习模型的构建流程较为复杂,需要经过特征分析、模型训练、模型验证、模型调优、模型导出、模型加载,而且学习成本也比较高,每个模块都需要编码和调试,对于那些迫切需要构建机器学习系统的组织和个人带来了很大的学习成本和时间成本。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于任务可视化拖拽的spark机器学习系统及学习方法。
本发明的目的通过以下的技术方案来实现:
一种基于任务可视化拖拽的spark机器学习系统,包括:包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
一种基于任务可视化拖拽的spark机器学习方法,包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
本系统提供了可视化拖拽的spark机器学习组件,可以针对具体的业务,拖拽组件,构建数据处理流程,系统一键安装,高效易用,大幅度降低了企业引入数据挖掘系统的成本。能够帮助银行、电商、餐饮、证券公司快速寻找潜在的客户群体,实现最大化营销效果,能够建立高效的分析预警模型,降低企业风险。
附图说明
图1是基于任务可视化拖拽的spark机器学习系统结构图;
图2是基于任务可视化拖拽的spark机器学习方法流程图;
图3是组件连接图;
图4是每个组件的信息图;
图5是机器学习可视化效果图;
图6是处理后的可视化效果图;
图7是基于任务可视化的机器学习任务流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司,未经同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010059133.1/2.html,转载请声明来源钻瓜专利网。