[发明专利]一种病毒数据库的数据分析方法、系统、设备及存储介质在审
| 申请号: | 202110804370.0 | 申请日: | 2021-07-16 |
| 公开(公告)号: | CN113539378A | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 刘国琦;韩长春;陈华 | 申请(专利权)人: | 明科生物技术(杭州)有限公司 |
| 主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B40/20 |
| 代理公司: | 杭州五洲普华专利代理事务所(特殊普通合伙) 33260 | 代理人: | 徐晶晶 |
| 地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 病毒 数据库 数据 分析 方法 系统 设备 存储 介质 | ||
1.一种病毒数据库的数据分析方法,其特征在于,包括以下步骤:
基于样品的病毒数据,对所述病毒数据通过质控后对比宿主基因组,去除宿主污染,得到筛选后的待分析病毒数据;
对所述待分析病毒数据组装宏病毒,得到病毒contig;
对所述病毒contig评估筛选,去除假阳性病毒,得到病毒contig筛选结果;
对所述病毒contig筛选结果进行病毒分类,得到病毒contig类群;
对所述病毒contig类群比对到已知病毒数据库上,判断所述病毒contig类群是否在已知的病毒数据库内;
若否,则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库。
2.根据权利要求1所述的一种病毒数据库的数据分析方法,其特征在于,采用trimmomatic软件做质控,则对所述病毒数据进行预处理,包括以下步骤:
过滤所述病毒数据reads尾部质量值20以下的碱基,设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于20,则从窗口处截去后端碱基;
去除包含N碱基数目2以上的reads,去除含有adaptor接头污染的reads,去除50bp以下的reads;
用bwa把测序reads比对到宿主基因组,去除与宿主基因组相似度>90%的reads。
3.根据权利要求1所述的一种病毒数据库的数据分析方法,其特征在于,采用Virsorter、Virfinder、CheckV软件对所述病毒contig评估筛选,去除假阳性病毒数据,包括以下步骤:
Virsorter软件把病毒contig归为6大类,取可信度最高的第一类和第二类;
Virfinder软件把所述第一类和第二类中的每条进行打分,设置阈值:score>0.9并且p-value<0.05,满足阈值的contig是病毒,若不满足则筛除;
CheckV软件根据病毒基因组的结构特征,判断组装出的contig的完整度和污染度,则去除contig中的假阳性病毒。
4.根据权利要求1所述的一种病毒数据库的数据分析方法,其特征在于,采用Vcontact和vpf软件对所述病毒contig筛选结果进行病毒分类,得到所述病毒contig类群并构建系统发育树,具体为:
采用Vcontact软件对所述病毒contig筛选结果自动化聚类算法;
使用Vcontact软件的ClusterONE定义病毒簇;
采用vpf软件中的hmmsearch软件鉴定病毒簇得到病毒分类信息及病毒contig类群;
根据病毒基因组序列作全局对比的相似程度构建系统发育树。
5.根据权利要求1所述的一种病毒数据库的数据分析方法,其特征在于,病毒丰度的计算采用Salmon软件将clean data mapping到各病毒基因序列上,得到病毒contig在样品中的病毒丰度。
6.根据权利要求1所述的一种病毒数据库的数据分析方法,其特征在于,采用blast软件对所述病毒contig类群比对到已知数据库上,判断所述病毒contig类群是否在已知的数据库内,具体步骤如下:
采用所述blast软件将获得的所述病毒contig类群比对到已知病毒库上,将比对相似度>60%,evalue<1e-5的contig,定义为已知病毒;
将未判定为已知病毒的病毒contig序列分别与NT库和NR库用blast软件做比对,分别筛选出evalue<1e-5和evalue<1e-3的比对结果;
通过筛选后的比对结果得到待分析的未知病毒序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明科生物技术(杭州)有限公司,未经明科生物技术(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110804370.0/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





