[发明专利]处理混合流的数据流图在审
申请号: | 201380079077.6 | 申请日: | 2013-06-24 |
公开(公告)号: | CN105683940A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | A.西米特西斯;W.K.威尔金森;P.乔瓦诺维奇 | 申请(专利权)人: | 惠普发展公司;有限责任合伙企业 |
主分类号: | G06F17/00 | 分类号: | G06F17/00;G06F17/30 |
代理公司: | 中国专利代理(香港)有限公司 72001 | 代理人: | 张健;张涛 |
地址: | 美国德*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 混合 数据流 | ||
背景技术
混合流是可在多个执行引擎和/或存储引擎上执行的分析流。混合流可以被划分 为片段,其中,混合流的每个流片段可以在执行引擎上执行。片段可以具有执行依赖性和/ 或在片段之间可以存在数据流。利用现有的分析流设计工具和执行引擎,混合流可以被实 现为脚本和代码(例如,结构化查询语言和Java代码)的集合,所述脚本和代码实现片段,并 且其中片段的执行是通过单独的控制流来精心安排的。控制流可以被称为“作业流”。
附图说明
图1是根据本公开的用于处理混合流的数据流图的环境的示例的流程图。
图2A-2B图示了根据本公开的系统的示例。
图3A-3D图示了根据本公开的在混合流的数据流图的处理期间添加新节点的示 例。
图4A-4D图示了根据本公开的交换混合流的数据流图的节点的位置的示例。
图5A-5B图示了根据本公开的在混合流的数据流图的n元节点上分布节点/对节点 进行因子分解的示例。
图6A-6B图示了根据本公开的用于处理混合流的数据流图的方法的示例的流程 图。
具体实施方式
分析流设计工具和执行引擎可以在两个级别处对混合流进行建模:任务流和作业 流。任务流可以包含形成数据流的一系列算子以及包含数据集合的数据存储。数据流可以 将数据从输入数据存储的特定集合移动至结果数据存储的集合和/或可以对数据执行操 作。复杂的分析流(例如过程)可以包括具有数据和控制依赖性的多个任务流。作业流可以 表示针对整个过程的控制流。例如,作业流可以示出信息的流动,并可以包含像决策点之类 的控制能力。
任务流可以由具有多个互连算子和数据存储的有向图表示,其中,算子和/或数据 存储被表示为图中的节点,并且算子和/或数据存储之间的数据流被表示为边。算子可以包 括执行特定功能的计算机可读指令。这样的功能可以包括一种类型的运算,像清洁、模式修 改、数据或文本分析学、机器学习功能、流处理操作、事件处置等。例如,算子可以包括“将美 元转换为欧元”或“计算点x和y之间的距离”的计算机可读指令。
此外,作业流可以由具有多个互连任务流和控制点的有向图表示,其中,任务流 和/或控制点被表示为图中的节点,并且作业流的控制流可以被表示为连接节点的边。任务 节点可以与特定任务流相关联。每个任务节点可以表示可在特定执行引擎上运行的任务流 的数据流运算。分析过程的工作流程可以由控制点节点指定。控制点节点可以指定部分顺 序,按照所述部分顺序来除其他以外处理任务节点、分析过程的起始和停止点、工作流程中 的决策点和/或终止条件。涉及多个执行引擎的分析流可以被称为混合流。不失一般性地, 每个任务节点可以被指派以在单个执行引擎上执行。
在一些实例中,处理分析流对改进分析流的效率和操作可能是有益的。这样的处 理可以涉及除其他过程外对算子重新排序、跨数据源复制数据和/或将算子从一个执行引 擎重新指派给另一个执行引擎。处理可以将分析流的算子和/或数据流视为整体而不是视 为单独的任务流。
为了对混合流进行全局处理(例如跨整个混合流进行处理),混合流可以被转换为 包含混合流的控制和数据流特性两者的数据流图。这可以以自动化方式(诸如无需人为干 预)进行。将混合流转换为数据流图可以包括将作业流的图形结构与关联的任务流的图形 结构(例如,包括由作业流中的任务节点表示的任务流的内部算子的任务流图)组合。例如, 任务流的算子可以与作业流图中的任务节点组合,以使作业流图变平(例如扩充)。然后,可 以通过使用代码模板将将控制点节点转换为数据流节点,来将变平的作业流图转换为数据 流图。转换后的数据流图可以保持混合流的控制流语义学。
混合流的数据流图可以由工具(诸如优化器)处理。然而,当混合流的数据流图由 工具处理时,混合流的控制流语义学应当保持完好,使得数据流图可以被转换回到要派遣 至适当执行引擎(例如作为代码)和/或要发送至其原始来自的分析流设计工具的作业流和 多个任务流。将混合流转换为数据流图可以涉及添加多个新算子(例如连接符、提取符和加 载符),所述新算子被添加至数据流图以保持控制流语义学(例如,如此处进一步讨论的)。 此外,在数据流图的处理期间可以修订节点并可以添加新节点(例如算子),使得可能需要 定义语义学以使得能够将数据流图转换回到作业流和多个任务流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于惠普发展公司;有限责任合伙企业,未经惠普发展公司;有限责任合伙企业许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380079077.6/2.html,转载请声明来源钻瓜专利网。