[发明专利]一种病毒基因识别和宿主预测的方法与系统在审
申请号: | 202210291560.1 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114512182A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 王颖;杨孜孜 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361000 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病毒 基因 识别 宿主 预测 方法 系统 | ||
本发明公开了一种病毒基因识别方法,包括:获取待测样本的宏基因组;获取预处理的宏基因组的k‑mer频度向量;构建三元组并输入到第一三元组网络进行训练,训练后的第一三元组网络使病毒与细菌的特征向量距离增大;将宏基因组的k‑mer频度向量输入训练好的第一三元组网络,从中识别出病毒序列。本发明还公开了一种宿主预测的方法,包括:获取病毒序列;获取病毒序列的k‑mer频度向量;构建三元组并输入到第二三元组网络进行训练,训练后的第二三元组网络使病毒与宿主细菌的特征向量距离减小,病毒与非宿主细菌的特征向量距离增大;将病毒序列的k‑mer频度向量输入第二三元组网络,从而匹配出病毒可能的宿主细菌。
技术领域
本发明涉及基因数据处理技术领域,尤其是一种基于三元组网络的病毒识别和宿主预测方法与系统。
背景技术
病毒是地球上最丰富和最多样化的生物实体。病毒感染生命的所有领域,包括古生菌、细菌和真核生物。感染微生物的病毒对人类健康和生态系统都有重大影响,识别病毒的寄主对于了解病毒对寄主的影响,从而了解寄主群落多样性和功能具有重要意义。
病毒对其宿主以及对公共卫生的影响的研究仍处于早期阶段。宏基因组测序技术的发展使得大规模测序微生物基因组(包括病毒基因组)得以实现。根据已有的病毒基因组数据分析未知病毒可能的特性将对公共卫生事业有很大的帮助。
然而现有技术中根据基因组数据识别病毒并分析宿主的算法仍存在准确率较低、模型复杂等问题。
发明内容
针对现有技术存在的问题,本发明提出一种基于三元组网络的病毒识别和宿主预测的方法与系统。
第一方面,本发明提出一种病毒基因识别的方法,其特征在于,包括以下步骤:
S11:获取待测样本的宏基因组;
S12:获取宏基因组的k-mer频度向量;
S13:构建三元组并输入到第一三元组网络进行训练,训练后的第一三元组网络使病毒与细菌的特征向量距离增大;
S14:将宏基因组的k-mer频度向量输入训练后的第一三元组网络,从中识别出病毒序列。
优选地,S13中第一三元组网络的训练集为由已知病毒和细菌的k-mer频度向量构建的三元组其中x为k-mer频度向量,角标i、i+、i-分别表示(病毒、病毒、细菌)或(细菌、细菌、病毒),第一三元组网络的损失函数以病毒和细菌样本为三元组构建三元组网络,通过训练网络缩小病毒与病毒、细菌与细菌之间的距离,增大病毒与细菌之间的距离,进而从宏基因组数据中识别出病毒序列。
优选地,S14中识别出病毒序列具体包括将宏基因组的k-mer频度向量输入训练后的第一三元组网络,得到特征变换后的特征向量,应用SVM分类器,将特征向量归类为病毒或者细菌。
上述方法基于已有的基因组数据训练三元组网络,利用宏基因组测序结果中不同k-mer出现的频率作为特征,从中识别出病毒个体。
第二方面,本发明提出一种病毒宿主预测的方法,其特征在于,包括以下步骤:
S21:应用上述方法获取病毒序列;
S22:获取病毒序列的k-mer频度向量;
S23:构建三元组并输入到第二三元组网络进行训练,训练后的第二三元组网络使病毒与宿主细菌的特征向量距离减小,病毒与非宿主细菌的特征向量距离增大;
S24:将病毒序列的k-mer频度向量输入训练后的第二三元组网络,从而匹配出病毒可能的宿主细菌。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210291560.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于负载均衡设备的会话处理方法及装置
- 下一篇:一种车载型雨水口清污装置