[发明专利]一种基于多状态科学工作流的数据世系追溯系统和方法有效
申请号: | 201410010013.7 | 申请日: | 2014-01-09 |
公开(公告)号: | CN103745319B | 公开(公告)日: | 2017-01-04 |
发明(设计)人: | 黄雨;井玉欣;王捍贫;张世琨 | 申请(专利权)人: | 北京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q10/06 |
代理公司: | 北京万象新悦知识产权代理事务所(普通合伙)11360 | 代理人: | 朱红涛 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 状态 科学 工作流 数据 世系 追溯 系统 方法 | ||
技术领域
本发明提供了一种基于多状态科学工作流的数据世系追溯系统和方法,具体涉及一种多任务状态下科学工作流程实例中,各流程节点之间的数据世系关系追溯方法以及数据世系关系的存储方式。
背景技术
在大规模、复杂系统设计制造过程和科学实验中,比如航天器设计、轮船制造等,通常需要众多人员协同完成大量的、相互依赖关联的等量级任务。在这一过程中,显著的特点就是设计过程和实施过程中涉及到大量任务和海量数据,工作流程高度复杂。
对于复杂工作流程的管理,在过程方面,由于复杂型号产品的设计过程中通常包括大量的活动节点和参数,同时又要能够支持多部门多学科的协同设计和优化,这就要求过程管理应关注于各活动节点之间的数据传递,以及节点参数之间的映射,所以,过程管理需要能够控制复杂性,兼顾控制流和数据流,支持流程优化。
为了解决复杂工作流程的过程管理问题,研究人员将工作流技术被引入到科学研究领域,提出了科学工作流(Scientific Workflow,SWF)的概念和模型。工作流可以将工作分解成定义良好的任务和角色,按照预先定义好的规则和过程来执行,同时对各项任务进行协调和监控。科学工作流继承了工作流的优点,通过对任务间数据依赖关系的分析,提供了优化组合的方法,控制各部分在一定约束条件下按序完成,可以有效地控制和管理各活动节点之间的数据流动,推进工作流程向下进行。对于科学研究和复杂系统设计过程中各节点可能出现的迭代研发操作,在科学工作流基础上增加了节点的状态管理,以支持工作流程中的执行、重做等操作。
在数据管理方面,随着系统复杂度的提高,所涉及的数据越来越多,只关注集成后的结果数据无法保证数据的正确性和一致性,所以分析数据的产生和演化的过程对于评估数据质量、保证数据的正确性和安全性有很大的作用。基于此,在计算机领域中,数据世系概念被提出并成为研究热点,其重要性已经被多个科学工作流项目所认可,如GridDB,Chimera,myGRID,CMCS等。
在工作流程中,各活动节点能够在前置节点完成、输入数据满足的情况下启动执行,执行结束后将得到的数据进行合理存储,并驱动后续节点的执行;支持任务重做功能,当一个 活动节点重新执行后,其后续节点都应该获得消息,提示变更;要求能对各活动节点历次执行的数据进行有效的版本管理,可以根据活动节点的某个数据版本,追溯该版本数据是由之前各前置节点的哪个版本数据所计算得到的,并绘制成世系图。
但是这些系统之间对数据世系的表示和查询都是不同的。例如,Kepler提供了世系记录器来实时记录所创建的工作流实例的信息,这些信息包括了工作流上下文,数据历史,工作流的定义和演化。Taverna则通过使用Semantic网技术构建了四个层次,用来逐层表示世系数据:流程层,数据层,组织层和知识层。同样的RDFProv系统也使用了Semantic网技术,继承其可互操作性,扩展性等优点,提供了存储和查询关系数据库管理系统的能力。Chimera使用一种虚拟化数据目录(VDC)的技术,由一组将可执行任务映射到变换,将任务调用映射到数据变换,将输入/输出映射到数据对象的关系组成。VisTrails则是第一个除了支持数据演化历史,也支持工作流演化世系追踪的科学工作流管理系统。
发明内容
针对当前基于科学工作流的复杂系统设计仿真过程和科学研究实验中,缺乏一个统一的支持多状态科学工作流的数据世系描述和追溯方法问题,本发明提供了一种基于多状态科学工作流的数据世系追溯方法,给出了科学工作流过程执行中数据世系的组织机制和挖掘方法。
本发明的原理是:以基于有向图的科学工作流过程模型为基础,对其进行扩展,得到一个扩展的科学工作流过程模型。再利用数据世系技术丰富其数据模型部分,从过程和数据两个角度全方位地描述科学工作流的执行过程,得到基于多状态的科学工作流过程数据统一管理模型,并以此对数据世系进行描述和追溯。
本发明提供的技术方案如下:
一种基于多状态科学工作流的数据世系追溯系统,其特征是,包括:系统服务端、用户端、关系数据库、数据操作单元、逻辑计算单元;其中,
所述的系统服务端,为一台或多台位于云端或局域网环境的计算机,用以接受工作流用户的工作流执行请求以及对请求作出反应;
所述的用户端,为位于本地的计算机终端,是工作流用户执行工作流过程的输入设备;
所述的关系数据库,用以保存工作流活动节点信息、逻辑节点信息、数据的依赖关系以及条件约束集等;所述的关系数据库安装在系统服务端;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410010013.7/2.html,转载请声明来源钻瓜专利网。