[发明专利]一种面向大数据聚集分析的近似计算方法在审
申请号: | 201710982111.0 | 申请日: | 2017-10-20 |
公开(公告)号: | CN107704611A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 黄震华;高军;张志飞 | 申请(专利权)人: | 同济大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙)31290 | 代理人: | 叶凤 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数据 聚集 分析 近似 计算方法 | ||
技术领域
本发明涉及计算机应用技术领域,尤其是涉及一种大数据分析的计算方法。
背景技术
近年来,随着云计算、移动通信和信息技术的迅猛发展,大部分企业内部已积累了大量数据。而如何从海量数据中快速分析出有用的信息,并为企业各管理层提供有效的决策支持是提高企业经济效益和市场竞争力的一个主要手段。聚集分析能够通过复杂的数据查询语句来有效获取企业数据上的统计性指标,如SUM(求和)、AVG(求平均值)、COUNT(计数)、STDEV(标准差)、QUANTILE(分位数)等,使得它已成为近几年企业数据分析的一个重要工具。
目前,提高聚集分析速度有几个主要技术有:1)构建适合数据分布的多维索引技术,如B-树、R-树和网格;2)分布式计算技术,如基于Hadoop或Spark平台的map-reduce分布式计算框架;3)并行计算技术,如基于多核GPU(Graphics Processing Unit)的并行化处理技术;4)物化视图技术,即通过预先存储大量中间结果来提高聚集分析的速度。现有的主流数据库和OLAP(On-Line Analytical Processing)工具基本上都具有聚集分析的功能,并提供若干种有效的优化技术来降低聚集分析的用户响应时间,并提高分析效率。
我们发现上述现有的聚集分析技术在处理较小或中等规模的企业数据时,能够具有较快的速度和可接受的额外磁盘开销。然而在大数据环境下,聚集分析需要处理的数据除了单个数据表数据量巨大之外,进行连接操作的数据表个数也将比较多,而且很有可能存在多层嵌套查询的情况。因此,如果通过现有方法进行精确的计算聚集分析的结果,那么势必会导致分析效率极其低下,而且需要巨大的额外磁盘开销来存储多维索引和中间输出结果。例如,为了得到1T数据上包含2层嵌套查询的聚集分析结果,四核GPU并行计算需要6.5个小时左右,并且需要1.8T的额外磁盘开销,显然,这是用户无法接受的。
发明内容
本发明的目的就是为了解决上述现有方法存在的缺陷而提供一种处理速度快、分析结果准确度高且更为人性化的大数据聚集分析近似计算方法。
本发明需要保护的技术方案为:
一种面向大数据聚集分析的近似计算方法,其特征在于,包括如下步骤:
数据分割步骤(模块1):
首先将基础大数据顺序划分成多个不相交的数据片,并按一定的比例交换不同数据片中的数据元组。
渐进近似计算步骤(模块2):
从第一个数据片开始,依次接收数据分割步骤输入的数据片,并将所接收的数据片传送给聚集增量更新步骤(模块3)之后,等待聚集增量更新步骤计算并返回给定个数的聚集分析结果采样值,然后,基于这些聚集分析结果采样值来求取它们的平均值、相对标准偏差以及置信区间,并将这三个值返回给终端用户。如果用户接受相对标准偏差和置信区间,那么分析过程停止,否则,从数据分割步骤再输入一个数据片并进行后续的处理。
聚集增量更新步骤(模块3):
接收渐进近似计算步骤传送过来的数据片,将该数据片与历史处理过的所有数据片进行合并,然后在合并后的全局数据片上进行给定次数的有放回采样,并在每次采样后的数据样本集上增量计算并更新聚集分析的结果,从而得到该样本集上的聚集分析结果采样值。当所有样本集均处理完毕后,将这些聚集分析结果采样值返回给近似计算步骤。
本发明具有以下优点:
1.本发明通过近似计算和增量更新的策略来求取聚集分析结果值,这样能够显著降低大数据上聚集分析的实际开销。
2.本发明通过与终端用户交互的方式来逐步逼近大数据上的聚集分析结果值,使得聚集分析操作更为人性化。
3.本发明主要由3个模块组成,每个模块的实施过程简单、容易实现,同时不受具体开发工具和编程软件的限制,并且能够快速扩展到分布式和并行化的开发环境中。
附图说明
图1本发明的技术框架图。
具体实施方式
本发明技术框架如图1所示,本发明主要由数据分割、渐进近似计算以及聚集增量更新三个模块组成。
数据分割模块(模块1)首先将基础大数据顺序划分成多个不相交的数据片,并按一定的比例交换不同数据片中的数据元组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710982111.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种仓库智能管理系统
- 下一篇:一种基于中枢监控的智能仓库管理方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置