[发明专利]一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法有效
| 申请号: | 202211107292.X | 申请日: | 2022-09-13 |
| 公开(公告)号: | CN115198036B | 公开(公告)日: | 2022-12-30 |
| 发明(设计)人: | 陈勇;陈毅强;涂勇;范亚民;崔韬 | 申请(专利权)人: | 江苏省环境工程技术有限公司 |
| 主分类号: | C12Q1/70 | 分类号: | C12Q1/70;C12Q1/6869;G16B30/10 |
| 代理公司: | 南京知识律师事务所 32207 | 代理人: | 卢亚丽 |
| 地址: | 210019 江苏省南京*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 纳米 通量 序数 噬菌体 鉴定 宿主 预测 方法 | ||
1.一种基于纳米孔和高通量测序数据的噬菌体鉴定和宿主预测方法,其特征在于,从待测DNA样本中获得原始纳米孔测序数据和原始高通量测序数据,随后进行噬菌体鉴定和宿主预测,所述待测DNA样本为环境介质样本,所述环境介质样本包括污水、污泥样本,
包括以下步骤:
S1:设置第一质量值过滤参数,去除原始纳米孔测序数据中平均质量值低于第一质量值过滤参数的序列,得到过滤后的纳米孔序列;质量值过滤参数为碱基质量值Q,第一质量值过滤参数为Q7;
S2:将过滤后的纳米孔序列进行长度分析,设置第一序列长度参数,并去除序列长度小于所述第一序列长度参数的短序列,得到质控过滤后的纳米孔长序列;第一序列长度参数为1000bp;
S3:将原始高通量测序数据中含有接头的序列去除,得到过滤后的高通量测序数据;
S4:将过滤后的高通量测序数据中N含量超过10%的序列去除,设置第二质量值过滤参数,并将去除后的高通量序列中超过50%的碱基质量值低于所述第二质量值过滤参数的序列再去除,得到质控过滤后的高通量短序列;第二质量值过滤参数为Q5;
S5:将质控过滤后的纳米孔长序列和质控过滤后的高通量短序列进行混合组装,拼接出待鉴定的噬菌体序列信息,设置第二序列长度参数,并去除拼接后的序列长度小于所述第二序列长度参数的短序列,得到混合组装后的噬菌体序列;第二序列长度参数为5000bp;
S6:将混合组装后的噬菌体序列进行基因预测,得到待预测序列的基因特征信息;
S7:将待预测序列的基因特征信息与包含噬菌体基因特征信息的第一类数据库,以及与包含细菌基因特征信息的第二类数据库进行比对,分别获得相应的比对情况数据;所述第一类数据库为VPF数据库,所述第二类数据库为Pfam数据库、KEGG数据库中的任意一种或两种;
S8:对所述比对情况数据进行汇总和判定,具体为:
待预测序列的基因特征信息中,若比对上VPF数据库的基因数量大于等于序列中基因总量的60%,则该序列被鉴定为噬菌体序列;
或者,若比对上VPF数据库的基因数量大于等于比对上Pfam数据库的基因数量,则该序列被鉴定为噬菌体序列;
或者,若比对上VPF数据库的基因数量大于等于序列中基因总量的10%,且比对上Pfam数据库的基因数量小于等于序列中基因总量的40%,且比对上KEGG数据库的基因数量小于等于序列中基因总量的20%,则该序列被鉴定为噬菌体序列;
S9:下载含有全部细菌基因组序列信息的数据库,并从中提取现有的细菌基因组序列中的特殊间隔序列;所述含有全部细菌基因组序列信息的数据库为NCBI数据库;
S10:利用Blast软件将步骤S8中鉴定出的噬菌体序列与步骤S9中提取的特殊间隔序列进行比对,比对使用的参数包括覆盖度90%、一致度97%、错误数1,获得预测的噬菌体宿主信息。
2.权利要求1所述的噬菌体鉴定和宿主预测方法在环境介质样本微生物分析中的应用。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏省环境工程技术有限公司,未经江苏省环境工程技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211107292.X/1.html,转载请声明来源钻瓜专利网。





