[发明专利]一种基于总DNA测序结果的细胞器基因组筛选方法在审
申请号: | 201710972615.4 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107784199A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 刘源;高立志 | 申请(专利权)人: | 中国科学院昆明植物研究所 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/20;G06F19/22 |
代理公司: | 昆明协立知识产权代理事务所(普通合伙)53108 | 代理人: | 旃习涵 |
地址: | 650201 *** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dna 结果 细胞器 基因组 筛选 方法 | ||
技术领域
本发明属于生物信息领域,具体地,本发明涉及一种基于总DNA测序结果的细胞器基因组筛选方法及应用。
背景技术
随着一代测序技术(Roche公司)、二代测序技术(Illumina公司)和三代测序技术(PacBio公司)的诞生,测序通量的提升和测序成本的降低极大的推动了基因组学的发展,在此背景下,越来越多的植物和动物的基因组逐渐被科学家破译,揭秘基因组的特征成为亟待解决的难题。
植物的基因组分为细胞核基因组和细胞器基因组,细胞器基因组包括叶绿体和线粒体基因组,它们表现出非孟德尔遗传特性,一般为母性遗传。细胞器基因组通常是环状DNA分子,编码部分但不是全部的细胞器蛋白质。叶绿体是植物进行光合作用的主要场所,而线粒体基因组是植物进行能量代谢的工厂,已有研究结果表明(TIAN X,ZHENG J,HU S The Rice Mitochondrial Genomes and Their Variations[J].Plant Physiology,2006,140(2):401-10.),从总DNA中获得细胞器基因组序列切实可行。
综合已有的研究,目前对细胞器基因组的研究主要通过实验技术提取细胞器DNA,然后测序获得完整细胞器基因组,相比较动物细胞器基因组的提取,现阶段还未有高效的植物细胞器DNA提取方法,有研究报道,植物叶绿体的提取中或多或少的带有核DNA的污染(参考SHI C,HU N,HUANG H,GAO J,ZHAO YJ An improved chloroplast DNA extraction procedure for whole plastid genome sequencing[J].PLoS ONE,2012,7:e31468.)。随着测序技术的发展,核基因组的研究已成为热点,由于植物细胞器DNA提取方法的限制,细胞器基因组的研究明显滞后于核基因的研究。而通过总DNA提取细胞器基因组,通过从头组装和参考组装相结合的方法还未被开发,因此迫切需要开发相应的筛选和组装方法。
发明内容
本发明的目的是提供一种基于总DNA测序结果的细胞器基因组筛选方法及应用。
为了实现本发明的上述目的,本发明提供了如下的技术方案:
一种基于总DNA测序结果的细胞器基因组筛选方法,该方法是通过设计的算法对植物总DNA测序获得的核苷酸序列和已发表的细胞器叶绿体/线粒体基因组进行比较分析,筛选出其中的细胞器核苷酸序列,并用开源基因组拼接软件对筛选的结果进行De novo组装,获得细胞器基因组的框架图,然后通过实验的方法填补少量Gaps,最后获得完整的细胞器基因组。同时本发明通过PCR聚合酶链式反应技术实验验证了组装结果的可行性。
具体地,一种基于总DNA测序结果的细胞器基因组筛选方法,包括下述步骤:
(1)从NCBI(https://www.ncbi.nlm.nih.gov)下载目前为止已发表的细胞器基因组序列(植物分为叶绿体和线粒体基因组,动物为线粒体基因组)。
(2)将总DNA测序的数据通过脚本转换为fasta序列,构建总DNA数据集,用formatdb软件对步骤(1)获得的数据构建比对库。
(3)利用blast序列比对软件,将步骤(1)和步骤(2)获得的结果进行两两比对。
(4)用本发明开发的算法对步骤(3)获得的结果进行数据筛选,筛选出可能的细胞器基因组序列。
(5)利用本发明开发的数据挖掘模块对步骤(4)的结果进行数据挖掘,筛选出可能与CMS相关的ORF。
(6)利用多个(≥2)开源基因组拼接软件进行基因组拼接,并将不同拼接软件获得结果进行互相验证。
(7)对步骤(6)获得的结果进行筛选,获得片段长度(Contigs/Scaffolds)≥100bp的核苷酸序列。
(8)选定一个参考细胞器基因组,通过blat软件将步骤(7)获得的片段比对到参考基因组。
(9)利用本发明开发的算法(伪代码)对步骤(8)获得的结果进行片段前后关系定位,片段之间没有重叠的区域(Gaps)用100个N进行填充,以待后续实验补洞,获得伪细胞器基因组。
所述的伪代码为:
Begin
输入:步骤(8)获得的结果文件contigBlatResult,步骤(6)获得的Contigs/Scaffolds文件assemblyFasta,结果文件;
Begin
while contigBlatResult
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院昆明植物研究所,未经中国科学院昆明植物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710972615.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用