[发明专利]一种集群的外部数据访问方法在审
申请号: | 201710946005.7 | 申请日: | 2017-10-12 |
公开(公告)号: | CN107885460A | 公开(公告)日: | 2018-04-06 |
发明(设计)人: | 孙旭 | 申请(专利权)人: | 北京人大金仓信息技术股份有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙)11210 | 代理人: | 秦月贞 |
地址: | 100083 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 集群 外部 数据 访问 方法 | ||
技术领域
本发明涉及数据处理技术,具体来说,涉及一种集群的外部数据访问方法。
背景技术
集群为了对大量数据进行处理和存储,为了访问外部存储的数据,需要将外部数据导入到集群中,或者不需要将数据导入集群,而直接进行运算。这就要求集群具有外部数据访问的能力。
传统方案是利用数据导入工具将外部的数据导入到数据库中,在数据库中再使用SQL进行运算。
这种方案是访问外部数据的传统方法,在集群里也可以使用。但有其现实的缺点:
1. 数据入库后,占用存储资源。外部数据入库后,对于用户对存储敏感的情况下,就不会是一个好的选择。如果数据量大,用户的实际存储会不够用。并且,分析结束后,还需要对这部分数据进行删除操作。无形中,就会影响了当前系统中运行的业务。
2. 易用性较差。在用户分析过程中,需要先对数据进行导入,之后才能执行分析过程。无法在分析过程中直接使用外部数据,无需额外的步骤进行数据导入。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述技术问题,本发明提出一种集群的外部数据访问方法,能够在使用集群过程中,方便的使用外部数据,无需额外将数据导入到集群。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种集群的外部数据访问方法,包括以下步骤:
S1 在外部存放数据的机器上,启动文件加载进程,并对外提供网络接口服务;
S2 集群中在计算节点上启动ForeignTableScan算子,并行的连接文件加载进程、并行地加载数据。
作为优选,S1进一步包括:
S11对外启动特定的网络端口服务;
S12集群的计算节点连接网络服务;
S13 集群的计算节点发送读取指令;
S14 文件加载进程发送一定数据量的数据给计算节点。
进一步的,S11中在加载机器启动网络端口,将加载机作为加载服务器。
进一步的,S12中集群的计算节点可以连接加载机服务,并请求数据。
进一步的,S13中集群的计算节点可以发送读取数据指令,此时,文件加载进程可以发送数据给这个计算节点。
作为优选,S2进一步包括:
S21在ForeignTableScan,根据自身的节点ID,轮询连接数据加载服务进程;
S22 发送读取数据指令,计算节点每次处理完数据,主动请求数据;
S23读取数据,并按照数据分隔符解析数据,将解析好的数据表示成内核元组形式,所述元组参与后续计算。
进一步的,S23中加载服务器回馈一定数据量的数据,计算节点根据一定的格式,将接受的数据解析成各个字段,并将其转化成内部元组,由ForeignTableScan返回,进行下一步SQL运算。
本发明的有益效果:用户可以无缝地在查询中使用外部表,无需将外部数据导入到集群中,再进行计算,避免了频繁的对用户存储的占用;而且数据读取的方式是按照集群节点的方式分布的并行读取,提升了效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种集群的外部数据访问方法的流程示意图;
图2是根据本发明实施例所述的一种集群的外部数据访问方法中文件加载进程的执行流程示意图;
图3是根据本发明实施例所述的一种集群的外部数据访问方法中ForeignTableScan算子的计算流程示意图;
图4是根据本发明实施例所述的一种集群的外部数据访问方法的应用物理结构。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,根据本发明实施例所述的一种集群的外部数据访问方法,包括以下步骤:
S1 在外部存放数据的机器上,启动文件加载进程,并对外提供网络接口服务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京人大金仓信息技术股份有限公司,未经北京人大金仓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710946005.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能会计印章
- 下一篇:一种基于云平台管控的物联印章
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置