[发明专利]大数据加载系统和方法在审
申请号: | 201310359675.0 | 申请日: | 2013-08-16 |
公开(公告)号: | CN103440290A | 公开(公告)日: | 2013-12-11 |
发明(设计)人: | 狄静舒;王颖;宋怀明;苗艳超;刘新春;邵宗有 | 申请(专利权)人: | 曙光信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京新知远方知识产权代理事务所(普通合伙) 11397 | 代理人: | 张艳 |
地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 加载 系统 方法 | ||
技术领域
本发明涉及数据存储领域,具体涉及一种大数据加载系统和方法。
背景技术
随着云计算、物联网、社交网络、移动互联的快速发展,数据量以前所未有的速度增长,并且更加集中,而且这种趋势将持续下去。数据正在迅速膨胀并变大,数据规模越大,处理的难度也越大,但对其进行挖掘可能得到的价值也越大,人们正在越来越深地意识到数据的重要性。
然而,海量数据的危机并不单纯是数据量的爆炸性增长,它还涉及到数据类型的改变。以往的数据基本都可以用二维表结构表示并存储在数据库中,也就是结构化数据,但是现在越来越多的互联网多媒体等应用的出现,使得诸如图片、音视频等非结构化数据占到了越来越大的比重,甚至增长速度远远超过了结构化数据。这些非结构化数据往往蕴含着更大量的信息,如何将这些数据转化为可用的结构化数据信息,以便于进行数据分析和预测,则成为越来越迫切的需求。
现阶段,结构化数据的存储分析通过数据库实现,如oracle,pos tgresql,mysql等等,非结构化数据的存储分析通过Hadoop平台和MapReduce编程模型实现。数据库在结构化数据的高速加载和实时查询方面提供了良好的支持,Hadoop的文件系统HDFS满足了非结构化数据分析处理的底层支持。但是数据库或者Hadoop及相关组件只能单一地实现结构化或非结构化的数据处理,并没有实现结构化和非结构化数据的有效结合。如南大通用的gbase数据库,只支持结构化数据处理的功能。Facebook提出的Hive,支持对非结构化数据处理的功能,但在对数据处理的实时性上效果并不理想。EMC等相关厂商也发布了结构化数据和非结构化数据的统一处理平台,如Greenplum并行数据库,Teradata,Vertica等,但是目前在对非结构化数据的处理方面并没有满足高可扩展性和容错性的需求。
现阶段针对移动互联网应用海量数据复杂的处理需求,比如复杂的关联分析,不同类型数据的处理(包括结构化数据、文本数据、和音视频数据等),甚至不同类型数据的联合分析和检索等,决定了很多应用需求并非能够通过现有技术(数据库的结构化数据处理或是其他平台的非结构化数据处理)满足,这些应用需要实现对不同类型数据的统一处理。
现有技术,无论是各种数据库或是Hadoop及其各种组件均是只支持单一类型的数据分析,或是结构化数据的分析处理或是非结构化数据的分析处理。虽然有些厂商对并行数据库融合了Hadoop平台对于非结构化数据的支持,仍然不能有效地支持结构化数据和非结构化数据的结合。因为现有的各种数据库,在设计上均是采用二维表的结构表示和处理数据,不能支持某些非结构化数据的存储及分析。对于某些能够通过数据库存储分析的非结构化数据来说,虽然对结构化数据的实时查询支持效果很好,但由于非结构化数据文件较大,利用数据库分析处理会在很大程度上降低数据库的性能。而Hadoop及其相关组件以及其他非结构化数据处理平台虽然支持非结构化数据的存储管理,但是在对数据本身价值的利用并不完全,且在数据分析的实时性方面效果一般。有效地将结构化数据和非结构化数据统一存储管理,并进行数据的分析处理是当前迫切需要解决的问题。
综上所述,现有技术存在的主要问题在于,大数据加载平台不能同时支持结构化数据和非结构化数据的处理,并且保证数据分析的实时性。
发明内容
为了解决上述问题,本发明提供了一种大数据加载系统,其包括:
客户端,用于接收用户数据;
数据存储系统,用于存储所述用户数据;
元数据库,用于存储所述用户数据的管理信息,其中所述管理信息包括数据结构、数据属性和数据存储位置;
其特征在于
还包括加载服务器,其与客户端建立连接以从客户端接收用户数据,并根据数据存储系统的状态信息和元数据库的管理信息,将所述用户数据加载至所述数据存储系统。
在另一方面,本发明还提供了一种大数据加载方法,其特征在于包括步骤:
客户端接收用户数据;
加载服务器从客户端接收用户数据,并根据数据存储系统的状态信息和元数据库的管理信息,将所述用户数据加载至所述数据存储系统;
其中所述元数据库存储所述用户数据的管理信息,所述管理信息包括数据结构、数据属性和数据存储位置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业股份有限公司,未经曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310359675.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置