[发明专利]Gaia系统中面向融合计算的数据缓存装置与系统在审
申请号: | 202111201901.3 | 申请日: | 2021-10-15 |
公开(公告)号: | CN113934759A | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 赵恒泰;赵宇海;王国仁;季航旭;李博扬 | 申请(专利权)人: | 东北大学;北京理工大学 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/25;G06F16/27 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | gaia 系统 面向 融合 计算 数据 缓存 装置 | ||
1.一种Gaia系统中面向融合计算的全量缓存装置,其特征在于,所述全量缓存装置,用于在批数据与流数据的融合计算过程中缓存全部来自外部数据源的数据,适用于Gaia计算系统所有运行节点的内存总和大于等于外部数据大小的情况。
2.根据权利要求1所述的Gaia系统中面向融合计算的全量缓存装置,其特征在于,所述全量缓存装置包括数据源模块和至少1个计算节点模块;
所述数据源模块进一步包括:
全量-外部数据源连接模块,用于负责在计算过程的初始化阶段读取存储在外部存储系统的数据并将所读取的数据全部发送给全量-数据清洗模块;将Gaia计算系统内部提供的外部数据源连接算子抽象类进行实现,提供针对MySQL数据源的数据连接器,同时预留数据源连接器调用的统一接口,允许用户根据系统已经提供的针对MySQL数据源的数据连接器为模板,自行设计和实现其他数据连接器并接入系统以用于连接模块尚未覆盖的外部数据源;
全量-数据清洗模块,用于对从不同外部数据源获取的不同格式的数据进行规约和清洗处理,处理后的数据发给增量信息解析模块进行数据分析;所述规约处理为将所有数据统一构建为三元组形式,包含外部数据全部数据列的键值信息、用于数据连接列的键值信息、以及全部数据列的信息;所述清洗处理为对规约后的数据进行处理,消除重复数据,合并键值相同的数据;
增量信息解析模块,用于接收来自全量-数据清洗模块所发送的三元组形式数据;并将三元组形式数据中全部数据列的键值信息与从外部数据缓存模块获取的键值信息进行对比,对增量数据的处理方式进行判断:当三元组形式数据中的键值信息存在于外部数据缓存模块时,跳过该条数据,不将该三元组形式数据发送给数据分发模块,仅是相应更新该键值信息在外部数据缓存模块中的版本信息,当三元组形式数据中的键值信息不存在于外部数据缓存模块时,将该键值信息发送到外部数据缓存模块进行存储,并将该三元组形式数据和数据添加操作指令发送给数据分发模块;在每个数据读取周期结束后,检索外部数据缓存模块中存储的三元组形式数据中的键值信息的版本信息,将所有非最新版本的键值信息构建成三元组形式,并将该三元组形式数据和数据删除操作指令发送给数据分发模块;
外部数据缓存模块,用于接收来自增量信息解析模块所发送的三元组形式数据的键值信息,并对所接收的键值信息附加相应的版本信息后进行存储;
数据分发模块,负责维护数据变化,将从增量信息解析模块接收的数据和指令转发给计算节点模块;
所述计算节点模块进一步包括:
数据接收模块,用于接收数据源模块发送的五元组形式的数据并对其进行解析,并将解析后的数据发送给全量-数据缓存模块;
全量-数据缓存模块,用于接收来自数据接收模块的指令和三元组形式的数据,并根据指令类型对本地数据缓存进行相应的修改;
全量-计算模块,负责最终的计算业务:当流数据到达该模块时,通过流数据构建相应的键值信息进而构建查询消息并向全量-数据缓存模块发起数据查询请求,并将从全量-数据缓存模块接收的查询结果的批数据与到达该模块的流数据进行连接和计算;
所述全量-数据缓存模块进一步包括:
缓存框架模块,用于提供数据缓存功能;在全量-数据缓存模块内部暴露统一的数据操作接口,包含数据查询操作、数据删除操作和数据添加操作;根据接收到的不同指令,分别调用数据删除操作接口或者数据添加操作接口进行缓存修改;
数据查询模块,用于负责接收来自全量-计算模块的数据查询消息,根据数据查询消息所提供的键值信息调用所述缓存框架模块的数据查询操作接口进行数据查询,并将查询结果返回给全量-计算模块。
3.根据权利要求2所述的Gaia系统中面向融合计算的全量缓存装置,其特征在于,所述数据分发模块进一步包括:
数据封装模块,用于接收增量信息解析模块发送的三元组形式数据、以及包括数据添加操作指令和数据删除操作指令的数据更新操作指令,在三元组形式数据的基础上,添加数据更新操作指令和键值信息的版本信息,构建五元组形式的数据,交由分发策略模块进行数据分发;
分发策略模块,用于通过对Gaia计算系统内部的数据shuffle虚算子进行实现,提供数据分发策略的选择,支持将五元组形式的数据复制分发到每一个计算节点模块中,或者根据数据键值信息分发到特定计算节点模块中,进而增加Gaia计算系统的数据缓存上限。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学;北京理工大学,未经东北大学;北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111201901.3/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置