[发明专利]一种基于任务可视化拖拽的spark机器学习系统及学习方法在审
申请号: | 202010059133.1 | 申请日: | 2020-01-16 |
公开(公告)号: | CN111240662A | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 张文华;段飞虎;印东敏;马学冬;冯自强;张宏伟 | 申请(专利权)人: | 同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司 |
主分类号: | G06F8/34 | 分类号: | G06F8/34;G06F16/2458;G06F16/26;G06N20/00 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 王泽云 |
地址: | 100084 北京市海淀区清华园清华*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 可视化 spark 机器 学习 系统 学习方法 | ||
1.一种基于任务可视化拖拽的spark机器学习系统,其特征在于,所述系统包括流程设计器、流程解析器与流程调度器;所述
流程设计器,用于允许用户将数据源组件、数据预处理组件、机器学习组件、输出组件拖拽到设计区来构建机器学习流程,并生成流程描述语言;
流程解析器,用于解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,并通过设计的算法将流程图翻译为一套调度器可识别的数据;
流程调度器,解析流程解析器传递过来的数据,将构建的机器学习流程提交到spark集群进行训练。
2.如权利要求1所述的基于任务可视化拖拽的spark机器学习系统,其特征在于,所述数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
3.一种基于任务可视化拖拽的spark机器学习方法,其特征在于,所述方法包括:
A将数据源组件、数据预处理组件、机器学习组件、保存组件拖拽到设计区构建机器学习流程,并生成流程描述语言;
B解析用户构建的机器学习流程图,对各个组件之间的关系、输入、输出进行解析,通过设计的算法将流程图翻译为一套调度器可识别的数据;
C解析可识别的数据,将构建的机器学习流程提交到spark集群进行训练。
4.如权利要求1所述的基于任务可视化拖拽的spark机器学习方法,其特征在于,所述步骤A中:
数据源组件,用于供用户选择需要训练的源数据,包括文本数据、数据库数据、离线数据和实时数据;
数据预处理组件包括排序组件、筛选组件、设置角色组件、数据映射组件、空值处理组件与重命名组件;
机器学习组件包括机器学习中常用到的分类、聚类、回归与关联算法;
保存组件包括输出到数据库中的组件、保存为文本数据的组件和保存到知识图谱中的组件。
5.如权利要求4所述的基于任务可视化拖拽的spark机器学习方法,其特征在于,所述
排序组件,用于选择特定属性列进行自定义排序;
筛选组件,用于对数据进行筛选,将不满足条件的数据过滤掉;
设置角色组件,用于给数据设置自变量和因变量供机器学习算法训练;
数据映射组件,用于将非数值型数据映射为对应的数值型数据供机器学习算法进行训练;
空值处理组件,用于将数据源中的空值数据进行处理,可以将所有的空值过滤掉,或者设置成某些特定的数值;
重命名组件,可以对属性列进行重命名。
6.如权利要求4所述的基于任务可视化拖拽的spark机器学习方法,其特征在于,
所述分类包括KNN分类、SVM分类、逻辑回归分类、随机森林分类、神经网络分类、朴素贝叶斯分类、梯度提升树分类、决策树分类、KMeans聚类、幂迭代聚类;
所述回归包括线性回归、保序回归、曲线回归、决策树回归、随机森林回归与梯度提升树回归。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司,未经同方知网(北京)技术有限公司;同方知网数字出版技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010059133.1/1.html,转载请声明来源钻瓜专利网。