[发明专利]并行数据库和分布式文件系统上的数据分析平台有效
申请号: | 201480006056.6 | 申请日: | 2014-02-14 |
公开(公告)号: | CN104937552B | 公开(公告)日: | 2019-09-20 |
发明(设计)人: | C.E.威尔顿;S.杨 | 申请(专利权)人: | EMC公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;H03M13/05 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 杨美灵;姜甜 |
地址: | 美国麻*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 并行 数据库 分布式 文件系统 数据 分析 平台 | ||
1.一种用于数据分析的方法,其包括:
在多个分布式处理段中的每个中,嵌入包含一个或多个数据分析函数的库或者其他共享对象;
接收数据分析请求;
创建计划来生成对所述请求的响应;以及
对所述多个分布式处理段中的每个指派要由该段执行的计划的对应部分,其包括通过如在所述指派中指示的那样调用嵌入所述处理段的一个或多个数据分析函数,
其中对多个分布式处理段中的每个指派要由该段执行的计划的对应部分包括将指示要由该段处理的数据在分布式数据存储层内的位置的元数据嵌入要发送到所述多个分布式处理段中的一个或多个的指派通信。
2.如权利要求1所述的方法,其中所述数据分析请求包括一个或多个SQL语句。
3.如权利要求1所述的方法,其中所述数据分析请求包括一个或多个SQL语句来计算以下中的一个或多个:逻辑回归、多项逻辑回归、K均值聚类、基于关联规则的市场篮子分析和基于潜在狄利克雷的主题建模。
4.如权利要求1所述的方法,其中所述数据分析请求在大型分布式系统的主控节点处接收。
5.如权利要求1所述的方法,其中创建计划来生成对所述请求的响应包括创建查询计划、将所述查询计划切成多个片以及对每个片识别一组处理段来执行包括所述查询计划的片的任务。
6.如权利要求1所述的方法,其中所述分布式处理段中的每个配置成使用所述元数据来访问要由该段处理的所述数据。
7.如权利要求1所述的方法,其中所述分布式数据层包括存储在Hadoop分布式文件系统(HDFS)实例中的数据并且所述元数据指示要由该段处理的数据在所述HDFS内的位置。
8.如权利要求1所述的方法,其进一步包括将包括所述一个或多个数据分析函数的库或其它共享对象嵌入所述多个分布式处理段中的每个中。
9.如权利要求8所述的方法,其中所述库或其它共享对象包括在如部署的处理段中。
10.如权利要求8所述的方法,其中所述库或其它共享对象包含采用以下中的一个或多个的形式的所述一个或多个数据分析函数:编译C++代码、编译Java、编译Fortran或其它编译代码。
11.如权利要求1所述的方法,其中所述多个分布式处理段包括并行处理段的子集,其包括大规模并行处理(MPP)数据库系统。
12.一种用于数据分析的系统,其包括:
通信接口;以及
处理器,其耦合于所述通信接口并且配置成:
在多个分布式处理段中的每个中,嵌入包含一个或多个数据分析函数的库或者其他共享对象;
接收数据分析请求;
创建计划来生成对所述请求的响应;以及
经由通信对所述多个分布式处理段中的每个指派要由该段执行的所述计划的对应部分,其包括通过如在所述指派中指示的那样调用嵌入所述处理段中的一个或多个数据分析函数,所述通信经由所述通信接口发送,
其中所述处理器配置成至少部分通过将指示要由该段处理的数据在分布式数据存储层内的位置的元数据嵌入要经由所述通信接口发送到多个分布式处理段中的一个或多个的通信中而对所述多个分布式处理段中的每个指派要由该段执行的所述计划的对应部分。
13.如权利要求12所述的系统,其中所述数据分析请求包括一个或多个SQL语句。
14.如权利要求12所述的系统,其中所述数据分析请求在大型分布式系统的主控节点处接收。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于EMC公司,未经EMC公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480006056.6/1.html,转载请声明来源钻瓜专利网。