[发明专利]利用长转录组测序结果装配基因组的方法及装置有效

申请号：	201210256904.1	申请日：	2012-07-23
公开（公告）号：	CN102789553A	公开（公告）日：	2012-11-21
发明（设计）人：	李炯棠;薛尉;汪金兔;祝雅萍;孙效文	申请（专利权）人：	中国水产科学研究院
主分类号：	G06F19/20	分类号：	G06F19/20
代理公司：	北京同达信恒知识产权代理有限公司 11291	代理人：	郭红丽
地址：	100141 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	利用转录组测序结果装配基因组方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种利用长转录组测序结果装配基因组的方法及装置。

背景技术

目前，在基因组和转录组研究中，至少采用4种测序技术，其中包括传统的第一代Sanger测序技术以及作为第二代高通量测序技术的罗氏454测序技术、Illumina测序技术和AB公司的SOLiD技术。Sanger测序技术和Roche454测序技术产生的测序读长平均在300bp以上，而Illumina测序技术和SOLiD技术产生的测序读长低于150bp。

在基因组序列组装过程中，需要构建不同长度的基因组测序文库，来连接两个基因组片段。使用基因组片段比较短的测序文库，能够更准确地连接两个基因组片段，使用基因组片段比较长的测序文库，能够使组装后的基因组长度更长。因此，目前，在基因组组装过程中，通常先利用短测序文库组装基因组，再使用长测序文库组装基因组，使得组装后的基因组片段长度越来越大。目前第二代测序技术能够准确地构建短于20kb的基因组测序文库，但难以构建长于20kb的测序文库，所以，必须利用酵母人工染色体和细菌人工染色体，产生更长的测序文库，例如30kb和150kb的测序文库。但利用酵母人工染色体和细菌人工染色体的技术存在产生的数据量少、成本高、周期长的缺陷。为了加快基因组组装进度，人们尝试采用新方法替代上述构建长片段测序文库的方法。但是迄今尚未开发出低廉的长片段测序文库的构建方法。

成熟的转录本是通过以连续性基因组为模板进行转录，然后剪切去除内含子，拼接剩余的外显子而形成。如果基因组片段未组装起来，即基因组不完整，则可能将一条成熟的转录本分成2个或者更多个转录本片段。利用这些转录本片段，能够重新将对应的基因组片段串联起来，形成更长的基因组序列。而两个转录本片段之间的距离是被剪切去除的内含子。据报道内含子的平均长度为90kb，最长可达到200kb，因此利用转录组组装基因组的方法与利用长测序文库组装基因组相似。

第二代测序技术已经广泛应用于转录组测序，例如，当利用Illumina公司的Solexa GAIIx仪器获得1G的测序结果时，能产生千万级的转录组读段，并且仅需1周左右的时间，从而降低成本。因此与基于长测序文库的测序相比，使用转录组数据的优势在于容量高、成本低和周期短。

基于这种思想，研究人员尝试利用转录组来拼接基因组。目前ERANGE软件中的RNA-PATH模块可利用Illumina的转录组双端测序结果来组装基因组，具体组装过程为，首先直接将转录组的双端读段比对到基因组片段中，然后去除仅比对到同一基因组片段中的读段，利用比对到不同基因组片段的双端读段，将两个基因组片段连接在一起。

但是，上述软件存在以下问题：

（1）目前RNA-PATH模块仅能支持illumina测序技术产生的双端数据，而无法利用其他测序技术产生的单向测序数据，特别是无法利用现有公开的大量单向的Sanger数据和Roche454测序数据，导致使用范围受到限制。

（2）RNA-PATH模块根据读段长度分别使用Eland、Bowtie和BLAT三种比对程序将转录组读段比对到预先装配的基因组上。但是，上述三种比对程序可比对的转录组数据有限，导致实际有效的转录组数据少于其他比对程序。

因此，本领域期待一种能够利用长的转录组测序读段组装基因组序列的方法。

发明内容

本发明提供一种能够利用长的转录组测序读段组装基因组序列的方法。

为了对本发明作出清楚的说明，首先针对本说明书中使用的技术术语如下进行定义。

查询序列（query sequence），也称为输入序列，在本说明书中是指转录组测序读段。

匹配序列（target sequence），是与上述查询序列相似的序列，在本说明书中是指与转录组测序读段相似的基因组片段。

比对区域（alignment region），在本说明书中是指查询序列与匹配序列相似或者一致的区域。由于基因组装配尚不完整，所以，一条查询序列可能被分割成多个比对区域，这些比对区域分别位于多个基因组片段上。

查询区段（query block），在本说明书中是指比对区域在转录组测序读段上的序列。

匹配区段（target block），在本说明书中是指比对区域在基因组片段上的序列。