[发明专利]用于半结构化数据的可缩放分析平台有效

专利信息
申请号: 201280068938.6 申请日: 2012-12-21
公开(公告)号: CN104160394B 公开(公告)日: 2017-08-15
发明(设计)人: N·宾科尔特;S·哈里佐保罗斯;M·A·沙赫;B·A·索维尔;D·茨罗吉安尼斯 申请(专利权)人: 亚马逊科技公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中国国际贸易促进委员会专利商标事务所11038 代理人: 冯玉清
地址: 美国内*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 结构 数据 缩放 分析 平台
【说明书】:

相关申请的交叉参考

本申请主张2012年12月21日提交的美国实用申请第13/725,399号和2011年12月23日提交的美国临时申请第61/580,193号的优先权。上述申请的全部公开内容以引用的方式并入本文中。

技术领域

本公开涉及一种可缩放交互式数据库平台,并且更具体地说,涉及一种并入有存储和计算的用于半结构化数据的可缩放交互式数据库平台。

背景技术

本文中所提供的背景描述是出于概括地呈现本公开的上下文的目的。目前所提及的发明人的作品(就本背景部分中所描述的方面来说)以及在提交时可能尚未取得现有技术资格的背景描述的若干方面既不明确地也不隐含地被认为是本公开的现有技术。

传统的数据库系统以与基础存储后端紧密集成的查询执行引擎为特点,所述基础存储后端通常由不具有计算能力的可成块寻址的持久性存储装置组成。这些装置(硬盘驱动器和/或固态驱动器)的特征在于(a)依据是顺序地还是随机地存取数据而显著不同的存取时间、(b)以块粒度设定的具有固定最小大小的存取单元以及(c)显著比主存储器慢(几个数量级)的存取时间。从存储管理到查询执行到查询优化,这些特征连同存储后端不具有任何非平凡计算能力的假设已对数据库系统的设计具有重要影响。

数据库最初充当管理商家日常活动的操作存储区。随着数据库技术在性能和成本两方面有所改进,商家认为需要保持越来越多的操作历史和商业状态以供稍后分析。此类分析帮助商家洞察其过程并对它们进行优化,进而提供竞争优势和越来越多的利润。

数据仓库由于这种需要而产生。商业数据通常被很好地结构化,从而容易填入关系表格中。数据仓库实质上是供应结构化查询语言(SQL)来对这种商业数据进行离线分析的可缩放关系数据库系统,并且针对主读工作负荷进行优化。举例来说,数据仓库包括如Teradata等传统系统以及例如Vertica、Greenplum和Aster Data等较新供应商。他们提供SQL接口、索引和快速列式访问。

通常,周期性地(例如,每夜或每周)向数据仓库加载从各种源和操作系统摄取的数据。对这种数据进行清理、策划并统一成单个模式并且将其加载到仓库中的过程被称为提取-转换-加载(ETL)。随着源和数据的种类增加,ETL过程的复杂性也增加。成功地实施ETL(包括定义恰当的模式并且将输入数据匹配于预定模式)可能需要专业人员花费数周到数月,并且可能很难或不可能实施改变。市场上有很多工具(例如Abinitio、Informatica和Pentaho)来辅助ETL过程。然而,ETL过程大体上仍是麻烦的、脆弱的并且昂贵的。

数据分析市场已经爆发出使得商业用户易于对仓库中的数据执行特别迭代分析的许多商业智能和可视化工具。商业智能工具构建仓库数据的多维集合并且允许用户导航通过并观看这种数据的各种片段和投影。举例来说,商业用户可能想要通过产品种类、地区和商店查看总月度销售。然后,他们可能想要针对特定种类深挖到每周销售或者上升到查看整个国家的销售。多维集合还可称为在线分析处理(OLAP)立方体。例如Business Objects和Cognos等许多商业智能(BI)工具实现此类分析,并且支持用于查询立方体的称为多维表达式(MDX)的语言。还有例如MicroStrategy、Tableau和Spotfire等许多可视化工具,其允许商业用户直观地浏览这些立方体和数据仓库。

最近,商家想要分析的数据类型已经改变。随着传统实体商业放到网上并且形成新的在线商业,这些商家需要分析例如Google和Yahoo等领先的公司所充斥着的数据类型。这些数据类型包括例如网页、页面浏览量日志、点击流、RSS(丰富站点摘要)馈入、应用程序日志、应用服务器日志、系统日志、事务日志、传感器数据、社交网络馈入、新闻馈入和博客贴子等数据类型。

这些半结构化数据不能很好地适合传统仓库。它们具有某种固有结构,但结构可能是不一致的。结构可随着时间迅速地改变,并且可随不同源而变化。它们并不是自然列成表格的,并且用户想要对这些数据执行的分析——聚合、分类、预测等——不容易用SQL来表达。用于有效利用这些数据的现有工具是麻烦并且不足的。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊科技公司,未经亚马逊科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201280068938.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top