[发明专利]Docker技术在高通量测序数据分析中的应用在审
申请号: | 201710722110.2 | 申请日: | 2017-08-22 |
公开(公告)号: | CN107590365A | 公开(公告)日: | 2018-01-16 |
发明(设计)人: | 袁晓辉 | 申请(专利权)人: | 武汉古奥基因科技有限公司 |
主分类号: | G06F19/28 | 分类号: | G06F19/28 |
代理公司: | 武汉蓝宝石专利代理事务所(特殊普通合伙)42242 | 代理人: | 常海涛 |
地址: | 430000 湖北省武汉市*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | docker 技术 通量 序数 分析 中的 应用 | ||
技术领域
本发明涉及生物计算学及分子生物学领域,具体涉及Docker技术在高通量测序数据分析中的应用。
背景技术
高通量测序技术(High Throught Sequencing Technology)又称为下一代测序技术(Next Generation SequencingTechnology,NGS)能够一次并行的对几十万乃至几百万条DNA分子进行序列测定。随着转录组测序、基因组重测序、基因组de novo测序、外显子组测序、宏基因组测序等高通量测序技术的日益成熟发展,随之产生的生物数据在数据种类、数量及数据复杂性等方面均呈现出大爆炸式的增长,如何有效对这些生物大数据进行有效的分析利用成为现代生物学的机遇和挑战。
高通量数据分析流程中使用到的数据分析软件均由各个领域的专家依赖各种脚本文件和库文件编写而成,由于未考虑与硬件资源的匹配,往往一个软件依赖各种库文件及模块。其中软件安装配置困难、维护不便,各类分析处理软件需要的计算机资源差异性、兼容性、迁移等受到了限制。
发明内容
本发明的目的在于解决现有生物大数据分析所需的分析软件安装、配置、迁移及所依赖的计算机资源差异等局限性问题,提供一种Docker技术在高通量测序数据分析中的应用。
本发明的目的通过下述技术方案实现:
Docker可以自动化地部署应用到可移植的容器中,该容器包含所需软件的组件及所有依赖,其能够独立于硬件、语言、框架及打包系统。Docker可以封装任何有效的负载,并在几乎所有的服务器之间进行一次性的迁移运行。即只需要开发构建一次,运营人员只需配置服务,无需了解底层细节,即可以运行所有应用。将Docker技术应用于高通量测序数据分析可解决现有生物大数据分析中存在的问题。
一种Docker技术用于高通量测序数据分析的方法,包括如下步骤:
(1)Docker生物云平台基础镜像的搭建:
Ⅰ.使用dockercommit命令构建基础镜像,再由dockerrun进入镜像的交互模式;
Ⅱ.在交互式模式下,下载、安装高通量测序数据分析所需要的软件及依赖的语言并保存镜像。
(2)生物高通量测序数据分析流程的搭建及生物云计算平台镜像的构建:
根据生物高通量测序数据分析流程及所使用的软件,在已安装软件及语言的基础镜像中搭建生物信息分析流程,再通过docker commit提交生成生物云计算平台镜像。
(3)生物云计算平台镜像的迁移与使用:
Ⅰ.通过docker save命令将配置完成的生物云计算平台镜像保存为一个tar压缩包;
Ⅱ.将tar压缩包上传到需要进行生物高通量测序数据分析的服务器目录,再通过docker load命令导入生物云计算平台镜像,导入后可以通过docker images命令,查看镜像是否导入成功;
Ⅲ.通过docker run命令挂载需要分析的数据信息及数据注释文件到导入成功的生物云计算平台镜像中;
Ⅳ.在生物云计算平台镜像中调用已经配置好的分析流程运行即可对数据进行分析。
其中,所述的高通量测序数据分析包括但不限于:基因组重测序分析、转录组测序分析、微生物多样性分析、ChIP-Seq、BS-Seq等各类生物信息分析。
本发明相对于现有技术具有如下优点和有益效果:本发明将生物数据信息分析需要的软件及依赖环境配置到可移植的docker容器中,从而打破了生物信息分析所需软件复杂性配置、环境依赖及流程迁移性差等局限性,使得分析流程变得易用、便捷与轻便。同时使得研究人员能够高效的对生物测序大数据进行挖掘分析,减少了对分析手段本身处理的时间。
附图说明
图1是ChIP-seq数据分析流程搭建示意图。
具体实施方式
下面结合实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例1Docker技术在染色质免疫共沉淀高通量测序(ChIP-seq)数据分析中的应用
(1)ChIP-Seq V0基础镜像的搭建:
Ⅰ.使用docker commit命令构建基础镜像ChIP-seq V0,再由docker run进入镜像的交互模式;
Ⅱ.在交互式模式下,安装ChIP-Seq分析所需要的软件及依赖的语言并保存该基础镜像。其中所安装主要软件、语言列表见下表1。
表1.ChIP-seq分析所需主要软件、语言列表
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉古奥基因科技有限公司,未经武汉古奥基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710722110.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钢球模具模芯的抛光机构
- 下一篇:一种木板抛光机
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用