[发明专利]无参转录组自动化分析方法在审
申请号: | 201611187563.1 | 申请日: | 2016-12-20 |
公开(公告)号: | CN106778064A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 沈立;王智健;姜丽荣;孙子奎 | 申请(专利权)人: | 上海派森诺生物科技股份有限公司 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 上海天翔知识产权代理有限公司31224 | 代理人: | 吕伴 |
地址: | 200231 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 转录 自动化 分析 方法 | ||
技术领域
本发明涉及生物信息分析技术领域,尤其涉及无参转录组分析系统及方法,特别涉及无参转录组自动化分析方法。
背景技术
随着第二代测序技术的迅猛发展,其高通量、快速、低成本的特点成为越来越多的生物学研究者在解决生物学问题时的首选,尤其在转录组测序方面更显示出极大的潜力。转录组(transcriptome)即特定生物体在某种状态下所有基因转录产物的总和,也是连接基因组遗传信息与生物功能(蛋白质组)的必然纽带。
转录组研究是功能基因组研究的一项重要内容。相对于真核生物全基因组测序来说,转录组测序得到的序列不含有内含子及其它非编码序列,因此转录组测序有着无可比拟的高性价比优势。研究基因组结构的复杂性及遗传语言的根本规律,需要对测序所得的海量数据进行精准且全面的揭示和分析。
目前转录组测序及分析技术可以解决新基因的深度发掘、低丰度转录本的发现、转录图谱绘制、可变剪接的调控、代谢途径确定、基因家族鉴定及进化分析等各方面的问题。转录组研究是基因功能及结构研究的基础和出发点,已经被广泛应用于医学、农学等各个领域。
目前现存的转录组分析方式存在以下缺陷:每项分析内容可选软件很多,不同生物信息分析人员使用的软件不统一,分析人员的技术水平也有高有低,给出的分析结果存在差异,导致后期项目交接困难,高级分析难以开展,容易导致分析项目的错漏。同时,各项分析需要单独运行,不能自动分配计算节点,也不能自动衔接后续分析,增加了分析等待时间,影响测序数据的处理效率。
发明创造内容
本发明的目的在于针对现有技术所存在的缺陷而提供一种无参转录组自动化分析方法,该无参转录组自动化分析方法基于Perl语言的自动化分析流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
为了实现上述目的,本发明所采用的技术方案如下:
一种无参转录组自动化分析方法,包括如下步骤:
1)输入要进行分析的项目信息步骤
将项目开题单号、物种类型、email、KAAS注释参考物种、样品过滤数据、样品分组以及需要分析的项目以一行表示一个信息进行输入;
2)开始标准分析步骤
根据步骤1)所设定的需要分析的项目,进行后续分析,该步骤默认的标准流程包括转录本拼接、Unigene聚类、Unigene功能注释、表达定量、表达差异富集分析以及结构分析;
3)查看程序输出和运行日志步骤
在分析进行过程中,如果程序出现问题,会将错误信息保存到对应的分析项目的目录下,同时分析流程使用的命令也会写入日志文件;通过检查日志文件和错误信息,保证分析结果的正确性。
本发明的有益效果在于:
基于Perl语言和PBS集群管理软件的自动化分析流程,可进行批量项目分析,自动衔接分析项目,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
附图说明
图1为本发明的无参考转录组自动化流程的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的无参考转录组测序数据处理方法的步骤流程图。
在具体实施方式中,该方法如图1所示包括以下步骤:
(1)输入的需要分析的项目的信息文件;
(2)检测信息的是否满足条件(格式是否正确),;
(3)格式正确后,会生成对应的分析项目列表,按照项目分析的前后顺序进行分析;
(4)查找项目需要的数据,判断是否存在,如果存在,进行分析,如果不存在,写入日志,该项目不分析;
(5)按照程序设定的目录结构,输出结果文件。
在实际应用中,本发明的方法所利用的工具包共包含1个Perl编写主程序代码和47个Perl、R或shell编写的子程序代码。主程序名为:RNASeq_Denovo_Main.pl。
流程所使用的每个子程序脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。
程序基于的Perl、R和shell语言,可以在Linux、MacOS等多种类unix系统平台下使用,能够在任意安装上述系统的服务器上进行使用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海派森诺生物科技股份有限公司,未经上海派森诺生物科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611187563.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用