[发明专利]一种大数据云平台下多环境配置的数据采集方法有效

专利信息
申请号: 201711268377.5 申请日: 2017-12-05
公开(公告)号: CN108228258B 公开(公告)日: 2020-06-19
发明(设计)人: 王忆麟;李磊;黄伟国 申请(专利权)人: 华南理工大学
主分类号: G06F9/4401 分类号: G06F9/4401
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 冯炳辉
地址: 511458 广东省广州市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种大数据云平台下多环境配置的数据采集方法,包括步骤:1)根据提供的配置项,选取对大数据平台效率影响较大的配置项;2)根据步骤1)选择的配置项,根据各配置项的范围进行随机不重复采样。本发明通过自动化的办法找出可取的配置项,并通过不重复采样,采集到大数据平台的配置项参数和运行时间,以便不同的使用者选择最适合自己的配置项参数。
搜索关键词: 一种 数据 平台 环境 配置 采集 方法
【主权项】:
1.一种大数据云平台下多环境配置的数据采集方法,其特征在于,包括以下步骤:1)根据提供的配置项,选取对大数据平台效率影响大的配置项,具体如下:1.1)初始化配置项选择集,将从官方文档中得到的影响大的配置项加入配置选择集;1.2)读入待选择配置项集中的第一项的配置项名称和该配置项的上下限;1.3)使用二分法搜索配置项的参数空间,并通过实际运行情况决定是否将该配置加入配置项选择集;1.4)将待选择配置项集中第一项配置移除;1.5)判断待选择配置项集是否为空,若为空,则得到最终的配置项选择集,否则,返回步骤1.2),继续处理其它待选择配置项;2)根据步骤1)选择的配置项,根据各配置项的范围进行随机不重复采样,具体如下:2.1)初始化配置项选择集中各配置的选择步长;2.2)根据各配置项上下限和选择步长,生成完整的配置项参数集;2.3)使用Reservoir Sampling算法,从配置项参数集中选择所需数量的配置项参数,得到采样集;2.4)收集采样集中各元素作为大数据云平台的配置来处理任务所需的运行时间。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711268377.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top