[发明专利]一个对海量数据进行抽样以及抽样数据管理系统无效
申请号: | 201110233472.8 | 申请日: | 2011-08-16 |
公开(公告)号: | CN102262678A | 公开(公告)日: | 2011-11-30 |
发明(设计)人: | 郑毅 | 申请(专利权)人: | 郑毅 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100012 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一个 海量 数据 进行 抽样 以及 数据管理 系统 | ||
技术领域
本发明涉及数据仓库领域、商务智能领域以及其他和海量数据分析与处理相关的领域,尤其涉及一种对海量数据进行抽样以及抽样数据管理的系统。
背景技术
抽样是从总体中选取一部分个体形成一个子集,利用这个子集对总体的统计特征进行估计与推断的过程。虽然利用抽样子集对总体特征的推断会损失一定的精确度。但是,如果考虑到现在很多分析都是出于探索、预测的目的,问题本身就存在很大的不确定性,那么通过抽样以损失一定的精确性为代价获得对数据及时而充分的探索与分析是一个很有价值也很有必要的手段。抽样调查技术已经在统计学、社会学、医学等诸多领域获得了充分的研究与发展。在对企业信息化系统、数据仓库系统中的海量数据进行分析与处理的实践中,更常见的是对全体数据的分析与处理,例如,在现有的商业智能系统和企业信息化系统中没有一个专门的数据抽样模块,商业智能系统通过对全体数据的汇总分析给出结果。虽然,很多实践者也曾经利用抽样技术对海量数据进行分析,但是这些抽样实践都是零散的、非系统化的、缺乏平台系统支撑与严格理论支撑的。本申请将提出一个数据抽样系统,它能够有效的管理对海量数据的抽样的设计、执行与应用。
随着信息技术的发展,人类的数据极大丰富。据IDC的一份调查报告显示,到2020年,人类产生的数据将超过35万亿GB(35ZB)。很多大型企业产生并储存了海量的数据。据McKinsey的一份调查报告显示,在美国,2010年规模超过1,000人的企业平均每家企业产生和储存超过200TB的数据,而许多企业产生和储存超过1PB(1PB=1,000TB)的数据。以著名的社交网络平台Facebook为例,到2010年7月,Facebook已经拥有超过35PB的数据,并且数据量仍然以每天超过90TB的未压缩数据(超过15TB的压缩数据)的速度增长。如何对如此海量的数据进行处理成为企业在未来需要面临的一大难题。
为了应对海量数据处理问题,企业通常以购买更加先进的服务器或者在云计算平台上进行数据处理等增加新的计算资源的方式来处理日益增长的海量数据。不可否认,增加新的高性能的计算资源是应对海量数据的一个重要手段,然而它并不是应对海量数据的唯一手段。本申请将提出一个抽样数据管理系统,该系统帮助使用者对海量数据进行抽样并对抽样数据进行管理,通过只对海量数据中规模可控的一部分子集进行分析,就能够在保证分析与决策质量的同时大大降低对运算资源的需求,从而能够将运算资源投入到更广泛、更复杂的运算中。
虽然和对总体数据进行分析相比,对经过抽样的数据的分析结果会损失一定的精确性。但是,因为数据量过于巨大,对总体数据的分析会出现很多问题,现一一列举如下:首先,由于对总体数据运算需要大量的运算资源,运算十分昂贵,业务人员很难有机会接触数据并掌握进行即席(ad-hoc)查询的必要技能,业务人员往往需要在技术人员的协助下对数据进行探索与分析,而在业务人员将需求表述给技术人员,技术人员再将需求在IT系统中实现的过程中难免会出现偏差甚至错误。其次,由于对总体数据的分析需要很长的时间,使得业务人员难以利用数据对自己的业务假设进行充分的探索与分析。并且,往往由于决策时机的时间限制,使得业务人员经常不得不在没有任何数据支撑的情况下做出决策。第三,因为对总体数据的即席查询需要耗费大量的时间和资源,为了满足业务人员快速的决策需求,往往需要业务人员对可能发生的决策以及可能需要的分析进行预估,再由技术人员预先实现这些需求, 并存储到系统中。然而,预估的需求和实际的需求往往存在偏差,这使得系统耗费了大量的计算和存储资源来生成和保存没有被用来指导决策的无价值的结果。第四,总体数据的数据量伴随着企业业务量的增长而同步增长,当下某些新兴业务的业务飞速发展,数据增长速度往往超过预期,这也就意味着难以对企业信息系统的分析与计算能力进行有效规划,并且随着数据量的飞速增长对总体数据进行即席查询与分析所需的等待时间也会相应增长,从而造成虽然数据在飞速增长,但是数据的可用性却在逐步下降的困局。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑毅,未经郑毅许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110233472.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置