[发明专利]分布式机器学习可视化装置有效
申请号: | 201911225636.5 | 申请日: | 2019-12-04 |
公开(公告)号: | CN111078094B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 鄂海红;宋美娜;刘芳;周康;王晓晖 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F3/0486 | 分类号: | G06F3/0486;G06F3/0484;G06N20/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 石茵汀 |
地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 机器 学习 可视化 装置 | ||
1.一种分布式机器学习可视化装置,其特征在于,包括:
组件模块,用于提供拖拽组件以及报告的可查看编辑组件,其中,所述拖拽组件包括数据源组件、算法组件、模型组件和项目组件;
机器学习工作模块,用于为机器学习提供工作区域,允许将所述拖拽组件拖拽进入本模块,并进行流程图式连接,并包含:配置组件参数、查看当前节点结果、由当前节点开始运行后续机器学习流程、保存模型及生成报告的功能,具体用于机器学习建模pipeline流程构建、机器学习建模pipeline流程监测、机器学习建模pipeline流程翻译、机器学习建模pipeline流程运行、机器学习建模pipeline流程保存、机器学习建模pipeline流程报告和分布式机器学习pipeline流程化;
配置模块,用于提供组件配置内容,并根据当前配置动态更新,具体包括:根据预设的配置模式获取当前节点的默认配置内容;根据机器学习工作模块中pipeline流程翻译得到的数据结构进行追溯,即由当前节点向上寻找至起始节点,从而获取由起始节点到当前节点的全部路径;再由起始节点向下对路径上的节点配置读取进而生成最新的配置内容;配置完成后,对下游流程中产生影响的已有节点配置做出提示并更新配置内容;
日志模块,用于提供当前运行状态;
报告模块,用于在生成报告时,提供当前工作区域内各节点的详情以及运行结果的可视化内容,并支持可编辑,查看报告时,支持报告再编辑;
其中,所述组件模块还包括:所述数据源组件支持导入csv、excel数据,连接数据库导入数据,及已有数据;
所述算法组件包括数据探索、数据预处理、特征工程、数据分析、模型评估模块,同时每一模块含各自的算法,包括数据探索的全局统计、频率分析,数据分析的K均值聚类、关联分析,同时对每一个算法有其预设的配置以及操作逻辑;
所述模型组件包括用户已保存的模型;
所述项目组件包括新建项目和已有项目;
其中,所述机器学习工作模块还包括:所述机器学习建模pipeline流程构建包括:拖拽进入工作区域的组件,当组件为数据、模型、算法时,节点生成唯一的节点id作为标识,此节点通过单击进行配置,右键点击进行删除节点、查看节点数据结果、由当前节点开始运行操作;通过JSPlumb组件拖拽节点底部端点至另一节点顶部端点来生成连线,对连线点击删除连线;由点和线构成机器学习pipeline,并显示数据流向;
所述机器学习建模pipeline流程监测包括:通过点击事件监测工作区域内的节点、连线的增删,配置内容的修改,进而动态更新机器学习执行流程的变化和配置内容的变化;
所述机器学习建模pipeline流程翻译包括:根据数据流向对机器学习流程图进行翻译,得到可理解、可判断执行顺序的数据结构;其中,将所述流程的节点分为三种类型:直线型、聚合型、分离型,直线型即为该节点仅包含一个输入与一个输出,聚合型则为该节点包含多个输入,分离型意为该节点包含多个输出;
所述机器学习建模pipeline流程运行包括:运行区域内构建的机器学习模型,在日志模块显示运行状态,如果出现失败情况,则在日志中显示失败原因,调整之后选择由失败节点开始重新运行;运行过程中,可以随时查看已完成节点的运行结果,并采用echarts技术结合图表对运行结果进行了可视化展示;
所述机器学习建模pipeline流程保存包括:将pipeline流程保存模型,同时也对本项目进行保存,保存内容包括工作区域pipeline流程图、节点配置、节点运行结果内容;
所述机器学习建模pipeline流程报告包括:根据当前建模过程以及各结果动态生成报告模块;
所诉分布式机器学习pipeline流程化包括:基于验证执行之后,将pipeline流程提交到spark集群上全量运行。
2.根据权利要求1所述的装置,其特征在于,将pipeline流程中的节点id作为数据对象中的key值,将起始节点放在startNode中,以作为机器学习流程执行的起点,其中,通过对每个节点的pre和next字段来判断当前节点类型,pre代表的是当前节点的前向节点,next代表的是当前节点的后向节点。
3.根据权利要求2所述的装置,其特征在于,
当pre的长度大于1时,则当前节点为聚合型节点,需要等待pre中的所有节点的上游流程执行完毕之后才可以执行当前节点;
当next的长度大于1时,则所述当前节点为分离型节点,执行完所述当前节点之后,对于next中的所有节点并行执行;
当pre与next的长度皆为1时,则所述当前节点为直线型,等待pre中的唯一节点执行完毕,执行所述当前节点,所述当前节点执行完毕,顺序执行next中的唯一节点;
当pre长度为0时,表示所述当前节点为开始节点,当next长度为0时,表示当前节点为结束节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911225636.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:消息提醒方法、电子设备和存储介质
- 下一篇:一种汽摩配件弯折设备