[发明专利]基于混合编排的数据处理方法、装置、系统和存储介质在审
申请号: | 202110349288.3 | 申请日: | 2021-03-31 |
公开(公告)号: | CN112925813A | 公开(公告)日: | 2021-06-08 |
发明(设计)人: | 方荣;罗伟锋;郭朕;刘鹏;马浩 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/2458;G06F16/27;G06F16/28;G06N20/00 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 郭鑫 |
地址: | 100085 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 编排 数据处理 方法 装置 系统 存储 介质 | ||
本公开实施例涉及基于混合编排的数据处理方法、装置、系统和存储介质。方法包括:获取数据配置信息和数据处理逻辑;基于数据配置信息和数据处理逻辑,采用节点和边的数据结构,混合编排流程信息;其中,节点包括数据节点和计算节点,边用于描述该边连接的两个节点之间的依赖关系;解析流程信息,以执行流程信息中的至少一个计算节点,完成数据处理。本公开至少一个实施例中,在获取数据配置信息和数据处理逻辑后,通过采用节点和边的数据结构,混合编排流程信息,将节点区分数据节点和计算节点,数据节点为数据提供表达和管理功能,进而通过解析流程信息,来执行流程信息中的计算节点,实现以数据为视角的处理流程。
技术领域
本公开实施例涉及机器学习技术领域,具体涉及一种基于混合编排的数据处理方法、装置、系统和存储介质。
背景技术
数据处理过程包含数据提取,转换,存储等多个步骤,也可以称为数据治理过程。目前通过任务流编排调度工具(例如Airflow)来编排数据处理流程,以根据编排的数据处理流程进行数据处理。目前的任务流编排调度工具可以实现任务定义和按任务间的依赖关系调度任务,因此,是以“任务”视角进行数据处理。
而在人工智能(Artificial Intelligence,AI)应用场景下数据处理过程中不仅包括任务流,还包括服务流和数据流,而数据流又分为多种,例如包括请求数据流,反馈数据流,展示数据流和业务数据流中的一种或多种,因此,AI应用场景下更关心的是数据定义和管理,也即以“数据”视角进行数据处理。
可见,目前的任务流编排调度工具以“任务”视角进行数据处理,缺乏对数据的定义和管理,无法以“数据”视角来编排数据处理流程,从而也无法以“数据”视角来管理任务产出的结果,因此无法满足AI应用场景下数据处理流程的编排。另外,目前的数据处理过程基本都着重于离线的数据加载和处理,这种数据处理方式有着较长的数据滞后性,在AI应用场景下也会带来线下线上数据不一致的问题。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种基于混合编排的数据处理方法、装置、系统和存储介质。
第一方面,本公开实施例提供一种基于混合编排的数据处理方法,该方法包括:
获取数据配置信息和数据处理逻辑;
基于数据配置信息和数据处理逻辑,采用节点和边的数据结构,混合编排流程信息;其中,节点包括数据节点和计算节点,边用于描述该边连接的两个节点之间的依赖关系;
解析流程信息,以执行流程信息中的至少一个计算节点,完成数据处理。
在一些实施例中,流程信息包括至少一个数据节点、至少一个计算节点和至少一条边;数据节点包括多个数据配置项;
基于数据配置信息和数据处理逻辑,采用节点和边的数据结构,混合编排流程信息包括:
基于数据配置信息配置数据节点的数据配置项;
基于数据处理逻辑配置计算节点的数据处理逻辑。
在一些实施例中,数据配置项包括以下一种或多种:
存储配置项、数据表字段配置项、服务地址配置项。
在一些实施例中,计算节点的数据处理逻辑包括:
流式任务、批量任务、定时任务或服务。
在一些实施例中,流程信息包括以下至少两种计算节点:
流式任务的计算节点、批量任务的计算节点、定时任务的计算节点和服务的计算节点。
在一些实施例中,在配置计算节点的数据处理逻辑后,该方法还包括:
声明计算节点的执行引擎;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110349288.3/2.html,转载请声明来源钻瓜专利网。