[发明专利]一种利用生信技术挖掘ASFV核酸检测序列的方法有效
申请号: | 201910763772.3 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110364225B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 危宏平;熊东彦;张晓旭;余军平;熊进;蒋梦薇 | 申请(专利权)人: | 中国科学院武汉病毒研究所 |
主分类号: | G16B30/10 | 分类号: | G16B30/10;G16B50/30 |
代理公司: | 武汉天领众智专利代理事务所(普通合伙) 42300 | 代理人: | 杨建军 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种利用生信技术挖掘ASFV核酸检测序列的方法,本发明涉及生物信息学和病毒检测技术领域。该利用生信技术挖掘ASFV核酸检测序列的方法,提供了3个R语言脚本、3个Perl语言脚本,搭配chewBBACA软件,将公共数据库中可获得的所有ASFV全基因组序列进行分析、挖掘,找到保守且特异的序列和保留序列信息的矩阵文件,将这些序列根据矩阵文件信息,重新分配还原至对应的ASFV序列,并将序列按照在基因组上从5’到3’方向排序,根据ASFV的注释信息,获得这些序列所在ORF对应的功能基因名称,最后得到所有可以作为ASFV核酸检测的基因及序列信息,该生物信息学技术对于其他病毒的核酸检测序列的挖掘具有重要的指导意义和较高的应用价值。 | ||
搜索关键词: | 一种 利用 技术 挖掘 asfv 核酸 检测 序列 方法 | ||
【主权项】:
1.一种利用生信技术挖掘ASFV核酸检测序列的方法,其特征在于:具体包括以下步骤:S1、首先从NCBI的核酸数据库获得已有的ASFV基因组,将每个基因组作为一个单独FASTA格式文件下载,然后对文件进行命名,再将所有文件存放在一个文件夹,对文件夹命名;S2、另创建一个ref‑genome文件夹,随机选择两个或者多个基因组文件放入其中,用chewBBACA软件先对ref‑genome文件夹中的基因组进行分析挖掘出whole genes;S3、利用chewBBACA软件,采用Gene by gene allele calling算法,对所有基因组调用prodigal2.6.0预测基因、blastp比对至whole genes,并基于BSR计算筛选BSR值,然后将BSR值大于0.6的基因作为等位基因,再利用该软件进行allele calling,筛选出core genes,输出一个包含所有基因组的core genes类型的矩阵文件,同样利用该软件调用clustalw2.1和mafft v7.4.07将ASFV所有类型的core genes与参考基因组相对应的core genes序列进行多序列比对,输出一个包含ASFV每个核心基因类型的比对结果文件夹,从而得到ASFV的所有保守核心基因的信息;S4、使用编写的R语言脚本读入chewBBACA软件输出的core genes类型矩阵文件和core genes的代表序列比对文件,通过遍历矩阵数据和模式匹配core genes将ASFV每个core gene进行重新分配,输出一个包含所有ASFV的所有core genes序列的总fasta文件,命名为total.fasta;S5、利用编写的Perl语言脚本读取步骤S4中R语言脚本输出的总fasta文件,将每个ASFV的所有core genes分配到一个单独fasta文件中,即每个单独的fasta文件仅包含一个ASFV自身的所有core genes;S6、再利用编写的Perl脚本循环读取步骤S5中输出的每个ASFV自身所有core genes的独立fasta文件,将每个ASFV自身所有core genes按照在基因组上5’到3’的方向进行排序,这一步产生sorted基因文件;S7、利用编写的R语言脚本根据gff3文件对具有完整注释信息的被选择放入ref‑genome文件夹的ASFV参考基因组(一个即可)提取所有基因序列及基因名称,对提取的所有基因核酸序列构建blast数据库;S8、利用步骤S6对应的sorted基因文件,以步骤S7构建的blast数据库为准进行本地blast,筛选出相似度大于90%,长度大于450bp的最优结果,利用最优结果对应的步骤S7输出文件的基因名称,用编写的R语言脚本根据参考基因组的gbk文件提取使用的基因的名称及注释信息,这个输出文件包含筛选到的所有可以作为核酸检测的序列的基因名称。将所有ASFV排序好的基因序列合并在一个fasta文件中;综上所述,已经构建好了所有可以作为核酸检测序列的ASFV核酸序列库(S8产生的合并排序好的基因序列的fasta文件)及对应基因名称(S8输出的包含筛选到的所有可以作为核酸检测序列的基因名称)。S9、提取想检测的核酸序列并设计引物,则需从参考基因组中单独提取保守的目标检测基因序列并构建本地blast数据库,将步骤S8获得的fasta文件与此步构建的本地blast数据库比对,筛选相似度大于90%,长度大于450bp的结果,命名为result.txt,并利用编写的Perl语言脚本提取所有序列,这一步输出的结果为挖掘出的待检测保守序列,再进行多序列比对,然后分别设计引物和探针以用于核酸检测。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院武汉病毒研究所,未经中国科学院武汉病毒研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910763772.3/,转载请声明来源钻瓜专利网。