[发明专利]一种批量检测植物基因组LTR-反转座子的方法有效
申请号: | 201410062207.1 | 申请日: | 2014-02-24 |
公开(公告)号: | CN103824000A | 公开(公告)日: | 2014-05-28 |
发明(设计)人: | 杜建厂;刘静;徐珍珍;倪万潮 | 申请(专利权)人: | 江苏省农业科学院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/28 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 关畅 |
地址: | 210014 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种批量检测植物基因组LTR-反转座子的方法。本发明所提供的检测植物基因组LTR-反转座子的方法综合运用了基于结构特征从头寻找的LTR_STRUC程序,基于同源搜索的CROSS_MATCH程序,基于序列相似性的CLUSTALW比对程序,以及结合Perl脚本语言编程等方法。实验证明,本发明所提供的批量检测LTR-反转座子的方法比较系统,检测植物基因组LTR-反转座子插入位点正向重复的效果好,速度快,易实现流程化。本发明将常用的检测LTR-反转座子的软件与Perl脚本语言编程相结合,一定程度上弥补了这些常用软件的一些不足。本方法将在基因组注释和批量检测植物基因组LTR-反转座子中发挥着重要的作用。 | ||
搜索关键词: | 一种 批量 检测 植物 基因组 ltr 反转 座子 方法 | ||
【主权项】:
一种批量检测基因组LTR‑反转座子的方法,包括如下步骤:(1)将待测基因组序列记为A数据集,利用LTR_STRUC程序,在Windows操作系统下,采用默认参数设置对所述A数据集进行分析;把脚本abstract1.pl放到LTR_STRUC文件夹下,运行“perl abstract1.pl XXX1”命令,得到“result_LTR”和“result_INTACT”两个文件;所述“result_LTR”文件中的数据为LTRs序列,记为B数据集;所述“result_INTACT”文件中的数据为LTR‑反转座子序列,记为L1数据集;所述“XXX1”代表A数据集的文件名,该文件在运行LTR_STRUC程序时已置于input文件夹内;所述input文件夹为所述LTR_STRUC文件夹的子文件夹;(2)将模式生物的Tyl‑copia和Ty3‑gypsy两类LTR‑反转座子中转座酶保守结构域的氨基酸序列记为C数据集,利用Tblastn程序,在Linux操作系统或Window操作系统下,把‑outfmt设置为6或7,其它采用默认参数设置,用所述C数据集对所述A数据集进行比对分析;按照如下用脚本abstract_filter.pl对比对结果进行分析:运行命令“perl abstract_filter.pl XXX1XXX2”,得到“dbD”和“dbE”两个文件;所述“XXX1”代表所述A数据集的文件名;所述“XXX2”代表所述数据集C对所述数据集A做Tblastn比对的结果的文件名;所述“dbD”为所述A数据集中匹配到的包含所述转座酶保守结构域的序列集合,记为D数据集;所述“dbE”为所述数据集A中剔除所述D数据集中的序列后得到的数据集,记为E数据集;(3)利用CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述D数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为XXX4;按照如下用脚本abstract2.pl对所述文件XXX4中的数据进行分析:运行命令“perl abstract2.pl XXX3XXX4”命令,得到“XXX4.result”文件;根据所述“XXX4.result”文件中的LTR‑反转座子的起始位点和结束位点提取LTR‑反转座子序列集合,记为L2数据集;所述“XXX3”为所述D数据集的文件名;(4)利用CLUSTALW程序,在Linux操作系统或Window操作系统下,采用默认参数设置,对所述D数据集进行多序列比对,提取LTR‑反转座子,记为L3数据集;(5)利用CROSS_MATCH程序,在Linux操作系统下,采用默认参数设置,对所述B数据集和所述E数据集进行cross_match比对,把所得cross_match结果文件的开头和结尾的说明部分删除,留下比对行,得到的文件记为文件XXX6;按照如下脚本abstract2.pl对所述XXX6中的数据进行分析:运行“perl abstract2.pl XXX5XXX6”命令,得到“XXX6.result”文件;根据所述“XXX6.result”文件中的LTR‑反转座子的起始位点和结束位点提取LTR‑反转座子序列集合,记为L4数据集;;所述“XXX5”为所述E数据集的文件名;(6)将所述L1数据集、所述L2数据集、所述L3数据集和所述L4数据集进行整理去重,得到L数据集;所述L数据集中的序列即为从所述待测基因组序列中批量检测到的LTR‑反转座子。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省农业科学院,未经江苏省农业科学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410062207.1/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用