[发明专利]一种基于总DNA测序结果的细胞器基因组筛选方法在审
申请号: | 201710972615.4 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107784199A | 公开(公告)日: | 2018-03-09 |
发明(设计)人: | 刘源;高立志 | 申请(专利权)人: | 中国科学院昆明植物研究所 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/20;G06F19/22 |
代理公司: | 昆明协立知识产权代理事务所(普通合伙)53108 | 代理人: | 旃习涵 |
地址: | 650201 *** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dna 结果 细胞器 基因组 筛选 方法 | ||
1.一种基于总DNA测序结果的细胞器基因组筛选方法,其特征在于该方法是通过设计的算法对植物总DNA测序获得的核苷酸序列和已发表的细胞器叶绿体/线粒体基因组进行比较分析,筛选出其中的细胞器核苷酸序列,并用开源基因组拼接软件对筛选的结果进行De novo组装,获得细胞器基因组的框架图,然后通过实验的方法填补少量Gaps,最后获得完整的细胞器基因组,同时通过PCR聚合酶链式反应技术实验验证组装结果的可行性。
2.一种基于总DNA测序结果的细胞器基因组筛选方法,其特征在于该方法包括如下步骤:
(1)从NCBI https://www.ncbi.nlm.nih.gov下载目前为止已发表的细胞器基因组序列,植物分为叶绿体和线粒体基因组,动物为线粒体基因组;
(2)将总DNA测序的数据通过脚本转换为fasta序列,构建总DNA数据集,用formatdb软件对步骤(1)获得的数据构建比对库;
(3)利用blast序列比对软件,将步骤(1)和步骤(2)获得的结果进行两两比对;
(4)用本发明开发的算法对步骤(3)获得的结果进行数据筛选,筛选出可能的细胞器基因组序列;
(5)利用本发明开发的数据挖掘模块对步骤(4)的结果进行数据挖掘,筛选出可能与CMS相关的ORF;
(6)利用2个以上的多个开源基因组拼接软件进行基因组拼接,并将不同拼接软件获得结果进行互相验证;
(7)对步骤(6)获得的结果进行筛选,获得片段长度Contigs/Scaffolds≥100bp的核苷酸序列;
(8)选定一个参考细胞器基因组,通过blat软件将步骤(7)获得的片段比对到参考基因组;
(9)利用本发明开发的算法对步骤(8)获得的结果进行片段前后关系定位,片段之间没有重叠的区域用100个N进行填充,以待后续实验补洞,获得伪细胞器基因组;
(10)对Gaps区域设计PCR引物,测序,填补Gaps区域,获得完整的细胞器基因组;
(11)用开源注释软件,叶绿体用DOGMA,线粒体用Motify,对步骤(10)的结果进行细胞器基因组注释。
3.根据权利要求2所述的一种基于总DNA测序结果的细胞器基因组筛选方法,其特征在于步骤(4)是利用本发明开发的筛选算法对步骤(3)结果进行批量筛选,筛选原则如下:测序序列与细胞器基因组比对结果相似度大于等于设定值,默认≥98%,且比对长度/比对序列长度大于等于设定值,默认≥90%,的测序序列作为下一步候选测序序列。
4.根据权利要求2所述的一种基于总DNA测序结果的细胞器基因组筛选方法,其特征在于步骤(9)是利用本发明开发的序列排序模块对步骤(8)的结果进行坐标排序,片段之间没有重叠的部分统一用100个N填补,以待后续实验验证。
5.根据权利要求2所述的一种基于总DNA测序结果的细胞器基因组筛选方法,其特征在于步骤(9)所述的伪代码为:
Begin
输入:步骤(8)获得的结果文件contigBlatResult,步骤(6)获得的Contigs/Scaffolds文件assemblyFasta,结果文件;
Begin
while contigBlatResult
coverage=match length/total length of Contigs/Scaffolds if(coverage≥50%and identity≥90%)
Obtain the coordinate
End if
End while
Link the Gaps by 100N
输出:伪细胞器基因组文件;
End。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院昆明植物研究所,未经中国科学院昆明植物研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710972615.4/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用