[发明专利]一种病毒数据库的数据分析方法、系统、设备及存储介质在审
| 申请号: | 202110804370.0 | 申请日: | 2021-07-16 |
| 公开(公告)号: | CN113539378A | 公开(公告)日: | 2021-10-22 |
| 发明(设计)人: | 刘国琦;韩长春;陈华 | 申请(专利权)人: | 明科生物技术(杭州)有限公司 |
| 主分类号: | G16B50/30 | 分类号: | G16B50/30;G16B40/20 |
| 代理公司: | 杭州五洲普华专利代理事务所(特殊普通合伙) 33260 | 代理人: | 徐晶晶 |
| 地址: | 310000 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 病毒 数据库 数据 分析 方法 系统 设备 存储 介质 | ||
本发明公开了一种病毒数据库的数据分析方法、系统、设备及存储介质,包括以下步骤:基于样品的病毒数据,对所述病毒数据通过质控后对比宿主基因组,去除宿主污染,得到筛选后的待分析病毒数据;对所述待分析病毒数据组装宏病毒,得到病毒contig;对所述病毒contig评估筛选,去除假阳性病毒,得到病毒contig筛选结果;对所述病毒contig筛选结果进行病毒分类,得到病毒contig类群;对所述病毒contig类群比对到已知病毒数据库上,判断所述病毒contig类群是否在已知的病毒数据库内;若否,则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库。本发明的数据分析方法能够提升病毒数据有效性和准确性并扩充已知病毒数据库。
技术领域
本发明涉及基因检测技术领域,尤其涉及一种病毒数据库的数据分析方法、系统、设备及存储介质。
背景技术
宏病毒组,是在宏基因组学的一个新的学科分支,以环境中所有病毒的遗传物质为研究对象,鉴定出环境中所有的病毒组成,研究范围在人或动物肠道或者海洋、土壤等,用以挖掘潜在的对人类和环境的危害。
但是病毒不同于细菌或者真菌等其他微生物那样有通用的标记基因可以将其作为一个整体进行研究,因此,并不能通过标签序列扩增子测序的手段进行相应的病毒群落分类和解析,不能系统的得到样品内病毒组成多样性以及执行的功能。现有的基因宏病毒的分析方法是按照宏基因组的分析方法来分析的,部分按照自己开发的软件来进一步病毒识别,比对的数据库也是基于NR总数据库来比对的,这就造成病毒分类不准确,可靠性不高,出现结果的偏差。
发明内容
本发明针对现有技术中的缺点,提供了一种病毒数据库的数据分析方法、系统、设备及存储介质。
为了解决上述技术问题,本发明通过下述技术方案得以解决:
一种病毒数据库的数据分析方法,包括以下步骤:
基于样品的病毒数据,对所述病毒数据通过质控后对比宿主基因组,去除宿主污染,得到筛选后的待分析病毒数据;
对所述待分析病毒数据组装宏病毒,得到病毒contig;
对所述病毒contig评估筛选,去除假阳性病毒,得到病毒contig筛选结果;
对所述病毒contig筛选结果进行病毒分类,得到病毒contig类群;
对所述病毒contig类群比对到已知病毒数据库上,判断所述病毒contig类群是否在已知的病毒数据库内;
若否,则基于此病毒contig类群的功能分类及病毒丰度将此病毒contig类群写入已知病毒数据库中以更新已知病毒数据库。
优选的,采用trimmomatic软件做质控,则对所述病毒数据进行预处理,包括下列步骤:
过滤所述病毒数据reads尾部质量值20以下的碱基,具体方法如下:设置50bp的窗口,从头部开始移动窗口,如果窗口内的平均质量值低于20,则从窗口处截去后端碱基;
去除包含N碱基数目2以上的reads,去除含有adaptor接头污染的reads,去除50bp以下的reads,此质控的方法筛选出高质量的病毒数据以提高分析病毒数据的有效性;
用bwa把测序reads比对到宿主基因组,去除与宿主基因组相似度>90%的reads,去除宿主污染,防止宿主污染导致分析结果不准确。
优选的,采用metaSPAdes软件下的MetaviralSPAdes模块,通过不同kmer组装以及病毒结构特征,得到病毒contig。
优选的,采用Virsorter、Virfinder、CheckV软件对所述病毒contig评估筛选,去除假阳性病毒数据,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于明科生物技术(杭州)有限公司,未经明科生物技术(杭州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110804370.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





