[发明专利]并行数据库和分布式文件系统上的数据分析平台有效
申请号: | 201480006056.6 | 申请日: | 2014-02-14 |
公开(公告)号: | CN104937552B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | C.E.威尔顿;S.杨 | 申请(专利权)人: | EMC公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;H03M13/05 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 杨美灵;姜甜 |
地址: | 美国麻*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 数据库 分布式 文件系统 数据 分析 平台 | ||
公开在大型分布式系统的上下文中进行数据分析处理,该大型分布式系统包括大规模并行处理(MPP)数据库和分布式存储层。在各种实施例中,接收数据分析请求。创建计划来生成对请求的响应。对多个分布式处理段中的每个指派计划的对应部分,其包括通过如在指派中指示的那样调用嵌入处理段中的一个或多个数据分析函数。
对其它申请的交叉引用
该申请要求于2013年2月25日提交的题为INTEGRATION OF MASSIVELY PARALLELPROCESSING WITH A DATA INTENSIVE SOFTWARE FRAMEWORK(利用数据密集型软件框架的大规模并行处理整合)的美国临时专利申请号61/769,043的优先权,其为了所有目的通过引用合并于此。
技术领域
本申请涉及数据分析技术领域,尤其是,本申请涉及并行数据库和分布式文件系统上的数据分析平台技术领域。
背景技术
分布式存储系统能够采用使数据跨大的商用硬件集群分布的方式存储数据库、文件和其它对象。例如,是用于使数据和关联计算(例如,应用任务的执行)跨大的商用硬件集群分布的开放源软件框架。
EMC为数据存储和分析提供大规模并行处理(MPP)架构。典型地,数据存储在段服务器中,其中的每个存储并且管理总体数据集的一部分。例如EMC 等高级MPP数据库系统提供对巨大数据集进行数据分析处理的能力,其包括通过使用户能够使用熟悉和/或行业标准语言和协议(例如SQL)来规定要进行的数据分析和/或其它处理。数据分析处理的示例无限制地包括逻辑回归、多项逻辑回归、K均值聚类、基于关联规则的市场篮子分析、基于潜在狄利克雷的主题建模等。
尽管例如等分布式存储系统提供在商用硬件上可靠存储大量数据的能力,这样的系统至今未被优化来支持关于存储在它们中的数据的数据挖掘和分析处理。
发明内容
有鉴于现有技术的以上缺陷,本申请提出一种用于数据分析的方法、系统和相应的计算机可读存储介质。
一方面,本申请提出一种用于数据分析的方法,其包括:接收数据分析请求;创建计划来生成对所述请求的响应;以及对多个分布式处理段中的每个指派要由该段执行的计划的对应部分,其包括通过如在所述指派中指示的那样调用嵌入所述处理段的一个或多个数据分析函数。
一方面,本申请提出一种用于数据分析的系统,其包括:通信接口;以及处理器,其耦合于所述通信接口并且配置成:接收数据分析请求;创建计划来生成对所述请求的响应;以及经由通信对多个分布式处理段中的每个指派要由该段执行的所述计划的对应部分,其包括通过如在所述指派中指示的那样调用嵌入所述处理段中的一个或多个数据分析函数,所述通信经由所述通信接口发送。
一方面,本申请提出一种有形的非暂时性计算机可读存储介质,其包括计算机指令用于:接收数据分析请求;创建计划来生成对所述请求的响应;以及对多个分布式处理段中的每个指派要由该段执行的计划的对应部分,其包括通过如在所述指派中指示的那样调用嵌入所述处理段中的一个或多个数据分析函数。
通过以上方面,本申请能够提供在大的分布式数据存储系统的上下文中提供高级数据分析能力。
附图说明
本发明的各种实施例在下列详细描述和附图中公开。
图1是图示大型分布式系统的实施例的框图。
图2是图示大型分布式系统的数据分析架构的实施例的框图。
图3是图示数据库查询处理过程的实施例的流程图。
图4是图示段服务器的实施例的框图。
图5是图示进行数据分析处理的过程的实施例的流程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于EMC公司,未经EMC公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480006056.6/2.html,转载请声明来源钻瓜专利网。