[发明专利]一种基于云平台的大数据分析方法在审
申请号: | 201710356074.2 | 申请日: | 2017-05-19 |
公开(公告)号: | CN106971011A | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 陈彬强;蔡勇 | 申请(专利权)人: | 肇庆市智高电机有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 佛山市智汇聚晨专利代理有限公司44409 | 代理人: | 张艳梅 |
地址: | 526060 广东省肇庆*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平台 数据 分析 方法 | ||
技术领域
本发明涉及大数据分析技术领域,特别涉及一种基于云平台的大数据分析方法。
背景技术
随着社会工业化、信息化水平的不断提高,如今数据已取代计算成为信息计算的中心,云计算、大数据正在成为一种趋势和潮流。包括存储容量、可用性、I/O 性能、数据安全性、可扩展性等诸多方面。大数据是规模非常巨大和复杂的数据集。大数据有4V:Volume(大量),数据量持续快速增加;Velocity(高速),数据 I/O速度更快;Variety(多样),数据类型和来源多样化;Value(价值),其存在各方面的可用价值。由于大数据中包含海量的信息,在对海量信息中的可用数据资源进行分布式的大数据分析和挖掘是最优选方式。然而,现有技术中的分布式数据系统和相关联的数据库不能满足于日益增长的数据量和分析挖掘需求,而且数据处理效率不够高,响应不够及时,因为其不能够有效地获得、存储、管理、挖掘和分析这种特征的数据,难以体现数据处理的准确性、及时性和灵活性。
因此,为了能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性,特别是提高分析结果的准确性、及时性和灵活性并改善其质量,本领域中需要一种能够有效解决上述技术问题的大数据信息分析方法。
发明内容
本发明实施例的目的在于提供一种基于云平台的大数据分析方法,提高大数据分析的准确性、及时性和灵活性。
为达到上述目的,本发明实施例公开了一种基于云平台的大数据分析方法,方法包括:
确定数据分析目标和计划;
根据确定的数据分析目标和计划,创建基于云平台的大数据的分析架构;
获得待分析的大数据,并进行数据准备和处理;
对数据进行数据过滤,得到完整且不重复的数据;
对数据进行聚类,并对数据分析;
对结果进行测试、验证、评估和部署。
可选的,其中针对不同数据具有的不同特征、特性和/或属性来挖掘分析要求和属性对象。
可选的,所述分析架构可采用中央数据处理架构,或者分布式数据处理架构。
可选的,所述分析架构可以是基于大数据的特性的任意形式的架构。
可选的,所述获得待分析的大数据,并进行数据准备和处理,包括:
为了处理数据,先传载数据;
存储数据;
将数据转换为一种形式,该形式是一对二进制格式的值;
获取数据的标识符及对应的描述;
每隔预定的时间段更新数据,但需确保不能传载所有的数据。
可选的,所述时间段为根据需要或者数据特点来人工或机器自动设置的。
可选的,所述对数据进行聚类,并对数据分析,包括:
识别相关联的数据;
确定每个待处理的数据点;
使用聚类机器学习算法来减少数据量;
使用该聚类机器学习算法来分析数据集。
可选的,所述对数据进行聚类,并对数据分析,包括:
针对每个待处理的数据点,生成一对二进制格式的值;
一对二进制格式的值进一步包括聚类标识符并且对应于该数据点的坐标值;
为每个聚类生成输入的和;
发送与相同的聚类有关的值;
将聚类的结果存储为不相关的数据。
可选的,所述机器学习算法是均值算法。
可选的,所述对数据进行数据过滤,得到完整且不重复的数据,包括:
利用Hadoop分布式模式,对数据进行数据过滤,得到完整且不重复的数据。
可见,利用本发明实施例提供的一种基于云平台的大数据分析方法,确定数据分析目标和计划;根据确定的数据分析目标和计划,创建基于云平台的大数据的分析架构;获得待分析的大数据,并进行数据准备和处理;对数据进行数据过滤,得到完整且不重复的数据;对数据进行聚类,并对数据分析;对结果进行测试、验证、评估和部署。从而,能够迎接大数据时代的挑战,提高大数据分析的准确性、及时性和灵活性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于云平台的大数据分析方法的流程示意图。
图2为本发明实施例提供的图1中步骤S103的一种流程图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于肇庆市智高电机有限公司,未经肇庆市智高电机有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710356074.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置