[发明专利]利用长转录组测序结果装配基因组的方法及装置有效
| 申请号: | 201210256904.1 | 申请日: | 2012-07-23 |
| 公开(公告)号: | CN102789553A | 公开(公告)日: | 2012-11-21 |
| 发明(设计)人: | 李炯棠;薛尉;汪金兔;祝雅萍;孙效文 | 申请(专利权)人: | 中国水产科学研究院 |
| 主分类号: | G06F19/20 | 分类号: | G06F19/20 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭红丽 |
| 地址: | 100141 北京*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 利用 转录 组测序 结果 装配 基因组 方法 装置 | ||
技术领域
本发明涉及一种利用长转录组测序结果装配基因组的方法及装置。
背景技术
目前,在基因组和转录组研究中,至少采用4种测序技术,其中包括传统的第一代Sanger测序技术以及作为第二代高通量测序技术的罗氏454测序技术、Illumina测序技术和AB公司的SOLiD技术。Sanger测序技术和Roche454测序技术产生的测序读长平均在300bp以上,而Illumina测序技术和SOLiD技术产生的测序读长低于150bp。
在基因组序列组装过程中,需要构建不同长度的基因组测序文库,来连接两个基因组片段。使用基因组片段比较短的测序文库,能够更准确地连接两个基因组片段,使用基因组片段比较长的测序文库,能够使组装后的基因组长度更长。因此,目前,在基因组组装过程中,通常先利用短测序文库组装基因组,再使用长测序文库组装基因组,使得组装后的基因组片段长度越来越大。目前第二代测序技术能够准确地构建短于20kb的基因组测序文库,但难以构建长于20kb的测序文库,所以,必须利用酵母人工染色体和细菌人工染色体,产生更长的测序文库,例如30kb和150kb的测序文库。但利用酵母人工染色体和细菌人工染色体的技术存在产生的数据量少、成本高、周期长的缺陷。为了加快基因组组装进度,人们尝试采用新方法替代上述构建长片段测序文库的方法。但是迄今尚未开发出低廉的长片段测序文库的构建方法。
成熟的转录本是通过以连续性基因组为模板进行转录,然后剪切去除内含子,拼接剩余的外显子而形成。如果基因组片段未组装起来,即基因组不完整,则可能将一条成熟的转录本分成2个或者更多个转录本片段。利用这些转录本片段,能够重新将对应的基因组片段串联起来,形成更长的基因组序列。而两个转录本片段之间的距离是被剪切去除的内含子。据报道内含子的平均长度为90kb,最长可达到200kb,因此利用转录组组装基因组的方法与利用长测序文库组装基因组相似。
第二代测序技术已经广泛应用于转录组测序,例如,当利用Illumina公司的Solexa GAIIx仪器获得1G的测序结果时,能产生千万级的转录组读段,并且仅需1周左右的时间,从而降低成本。因此与基于长测序文库的测序相比,使用转录组数据的优势在于容量高、成本低和周期短。
基于这种思想,研究人员尝试利用转录组来拼接基因组。目前ERANGE软件中的RNA-PATH模块可利用Illumina的转录组双端测序结果来组装基因组,具体组装过程为,首先直接将转录组的双端读段比对到基因组片段中,然后去除仅比对到同一基因组片段中的读段,利用比对到不同基因组片段的双端读段,将两个基因组片段连接在一起。
但是,上述软件存在以下问题:
(1)目前RNA-PATH模块仅能支持illumina测序技术产生的双端数据,而无法利用其他测序技术产生的单向测序数据,特别是无法利用现有公开的大量单向的Sanger数据和Roche454测序数据,导致使用范围受到限制。
(2)RNA-PATH模块根据读段长度分别使用Eland、Bowtie和BLAT三种比对程序将转录组读段比对到预先装配的基因组上。但是,上述三种比对程序可比对的转录组数据有限,导致实际有效的转录组数据少于其他比对程序。
因此,本领域期待一种能够利用长的转录组测序读段组装基因组序列的方法。
发明内容
本发明提供一种能够利用长的转录组测序读段组装基因组序列的方法。
为了对本发明作出清楚的说明,首先针对本说明书中使用的技术术语如下进行定义。
查询序列(query sequence),也称为输入序列,在本说明书中是指转录组测序读段。
匹配序列(target sequence),是与上述查询序列相似的序列,在本说明书中是指与转录组测序读段相似的基因组片段。
比对区域(alignment region),在本说明书中是指查询序列与匹配序列相似或者一致的区域。由于基因组装配尚不完整,所以,一条查询序列可能被分割成多个比对区域,这些比对区域分别位于多个基因组片段上。
查询区段(query block),在本说明书中是指比对区域在转录组测序读段上的序列。
匹配区段(target block),在本说明书中是指比对区域在基因组片段上的序列。
查询序列的长度(qSize),是指查询序列的所有碱基数。在本说明书中,具体为转录组测序读段的所有碱基的总和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国水产科学研究院,未经中国水产科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210256904.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





