[发明专利]一种基于高通量测序数据的计算流程调度系统在审
申请号: | 202110778384.X | 申请日: | 2021-07-09 |
公开(公告)号: | CN113535326A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 杨竞成;宋越强;黄业超;冉子涵 | 申请(专利权)人: | 粤港澳大湾区精准医学研究院(广州) |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G16B20/30;G16B50/00 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 511455 广东省广州*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 通量 序数 计算 流程 调度 系统 | ||
本发明实施例提供一种基于高通量测序数据的计算流程调度系统,采用微服务架构,整合多种计算资源、Cromwell调度引擎,实现分析任务的有效调度,并在此基础上与App规范以及为App分发复用而定制开发的App Store相结合,实现App的高效开发、测试、复用以及完成多组学数据的分析。通过Pipeline分析过程管理模块,将整个分析过程中涉及的参数和文件等通过版本控制工具,进行有效的管理,为后续项目溯源、Bug排查、数据分析复现等提供可靠的基础;极大简化了生物信息数据分析流程,实现了分析流程的可控,可复用,可溯源,应用场景较为广泛。
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种基于高通量测序数据的计算流程调度系统。
背景技术
精准医学是将个体疾病的组学信息用于指导其诊断或治疗的医学。随着高通量测序技术的不断发展,在生命科学领域积累了大量组学数据,为精准医学提供了坚实的基础。
目前如全转录组测序、全外显子组测序、全基因组测序等高通量测序技术都有相应的标准分析流程。通常情况下,默认相同的数据使用相同的分析流程得到相同的计算结果。然而,事实并非如此,计算流程中存在的诸多问题如软件版本号、配置环境等不同均会导致计算结果的不可重复。计算结果的不可重复对精准医学的发展和应用造成严重影响。
发明内容
本发明实施例提供一种基于高通量测序数据的计算流程调度系统,将计算流程统一管理,并解决计算结果不可重复这一问题。
第一方面,本发明实施例提供一种基于高通量测序数据的计算流程调度系统,包括计算层、调度层、管理层和应用层;
所述计算层用于创建、管理目标项目所需的容器引擎、管理工具和存储库;
所述调度层用于基于计算流程定义语言WDL的语言解析与任务调度引擎;
所述管理层用于管理计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块;
所述应用层用于面向用户使用的操作界面与命令行。
作为优选的,所述计算层包括Docker容器、软件包管理工具以及Docker镜像仓库;
所述Docker容器用于将目标项目所需部分打包,并发布为Docker镜像;其中目标项目所需部分包括分析软件、软件依赖、系统设置与系统库;
所述软件包管理工具用于追踪计算环境中使用的不同软件包及其版本,自动分析待安装软件的依赖关系,将所有软件依赖的库等安装到独立的目录环境;
所述Docker镜像仓库用于存储所述Docker容器发布的Docker镜像。
作为优选的,所述Docker镜像仓库中的Docker镜像可被用户查看,并用于复现镜像制作打包的环境。
作为优选的,所述计算流程定义语言为预先制定的用于生物信息流程分析的定制语言。
作为优选的,所述任务调度引擎连接所述管理层和所述计算层,进行目标项目相关业务流程的推进和过程监控,并对流程步骤的按时完成情况进行统计分析。
作为优选的,所述计算流程管理模块、作业管理模块、数据管理模块、通知管理模块、软件版本控制模块和溯源管理模块均为计算流程封装成的应用程序App;所述管理层还构建有App Store进行应用程序管理,以实现计算流程版本控制和复用。
作为优选的,所述管理层中的操作界面由web管理系统实现。
作为优选的,所述管理层中的命令行基于开发的命令行管理工具实现。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤港澳大湾区精准医学研究院(广州),未经粤港澳大湾区精准医学研究院(广州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110778384.X/2.html,转载请声明来源钻瓜专利网。