[发明专利]一种基于云平台的大数据分析方法在审
申请号: | 201710356074.2 | 申请日: | 2017-05-19 |
公开(公告)号: | CN106971011A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 陈彬强;蔡勇 | 申请(专利权)人: | 肇庆市智高电机有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 佛山市智汇聚晨专利代理有限公司44409 | 代理人: | 张艳梅 |
地址: | 526060 广东省肇庆*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平台 数据 分析 方法 | ||
1.一种基于云平台的大数据分析方法,其特征在于,所述方法包括:
确定数据分析目标和计划;
根据确定的数据分析目标和计划,创建基于云平台的大数据的分析架构;
获得待分析的大数据,并进行数据准备和处理;
对数据进行数据过滤,得到完整且不重复的数据;
对数据进行聚类,并对数据分析;
对结果进行测试、验证、评估和部署。
2.根据权利要求1所述的方法,其特征在于,其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。
3.根据权利要求2所述的方法,其特征在于,所述分析架构可采用中央数据处理架构,或者分布式数据处理架构。
4.根据权利要求2所述的方法,其特征在于,所述分析架构可以是基于大数据的特性的任意形式的架构。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述获得待分析的大数据,并进行数据准备和处理,包括:
为了处理数据,先传载数据;
存储数据;
将数据转换为一种形式,该形式是一对二进制格式的值;
获取数据的标识符及对应的描述;
每隔预定的时间段更新数据,但需确保不能传载所有的数据。
6.根据权利要求5所述的方法,其特征在于,所述时间段为根据需要或者数据特点来人工或机器自动设置的。
7.根据权利要求1-4中任一项所述的方法,其特征在于,所述对数据进行聚类,并对数据分析,包括:
识别相关联的数据;
确定每个待处理的数据点;
使用聚类机器学习算法来减少数据量;
使用该聚类机器学习算法来分析数据集。
8.根据权利要求7所述的方法,其特征在于,所述对数据进行聚类,并对数据分析,包括:
针对每个待处理的数据点,生成一对二进制格式的值;
一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;
为每个聚类生成输入的和;
发送与相同的聚类有关的值;
将聚类的结果存储为不相关的数据。
9.根据权利要求7或8中任一项所述的方法,其特征在于,所述机器学习算法是均值算法。
10.根据权利要求1-9任一项所述的方法,其特征在于,所述对数据进行数据过滤,得到完整且不重复的数据,包括:
利用Hadoop分布式模式,对数据进行数据过滤,得到完整且不重复的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于肇庆市智高电机有限公司,未经肇庆市智高电机有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710356074.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置