[发明专利]一种病毒基因识别和宿主预测的方法与系统在审
申请号: | 202210291560.1 | 申请日: | 2022-03-23 |
公开(公告)号: | CN114512182A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 王颖;杨孜孜 | 申请(专利权)人: | 厦门大学 |
主分类号: | G16B20/00 | 分类号: | G16B20/00;G16B40/00 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361000 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 病毒 基因 识别 宿主 预测 方法 系统 | ||
1.一种病毒基因识别的方法,其特征在于,包括以下步骤:
S11:获取待测样本的宏基因组;
S12:获取所述宏基因组的k-mer频度向量;
S13:构建三元组并输入到第一三元组网络进行训练,训练后的第一三元组网络使病毒与细菌的特征向量距离增大;
S14:将所述宏基因组的k-mer频度向量输入所述训练后的所述第一三元组网络,从中识别出病毒序列。
2.根据权利要求1所述的一种病毒基因识别的方法,其特征在于,S13所述第一三元组网络的训练集为由已知病毒和细菌的k-mer频度向量构建的三元组其中x为k-mer频度向量,角标i、i+、i-分别表示(病毒、病毒、细菌)或(细菌、细菌、病毒),所述第一三元组网络的损失函数
3.根据权利要求1所述的一种病毒基因识别的方法,其特征在于,S14所述识别出病毒序列具体包括:
将所述宏基因组的k-mer频度向量输入所述训练后的所述第一三元组网络,得到特征变换后的特征向量,应用SVM分类器,将所述特征向量归类为病毒或者细菌。
4.一种病毒宿主预测的方法,其特征在于,包括以下步骤:
S21:采用权利要求1-3任一项所述的方法获取病毒序列;
S22:获取所述病毒序列的k-mer频度向量;
S23:构建三元组并输入到第二三元组网络进行训练,训练后的第二三元组网络使病毒与宿主细菌的特征向量距离减小,病毒与非宿主细菌的特征向量距离增大;
S24:将所述病毒序列的k-mer频度向量输入所述训练后的第二三元组网络,从而匹配出病毒可能的宿主细菌。
5.根据权利要求4所述的一种病毒宿主预测的方法,其特征在于,S23所述第二三元组网络的训练集为由宿主已知的病毒和已知细菌的k-mer频度向量构建的三元组其中x为k-mer频度向量,角标i、i+、i-分别表示(病毒、宿主细菌类、非宿主细菌类),所述宿主细菌类为与所述病毒的宿主细菌为同类的细菌,所述非宿主细菌类为与所述病毒的宿主细菌不同类的细菌,所述第二三元组网络的损失函数
6.根据权利要求4所述的一种病毒宿主预测的方法,其特征在于,S23所述第二三元组网络的训练集为由宿主已知的病毒k-mer频度向量构建的三元组其中x为k-mer频度向量,角标i、i+、i-分别表示(病毒、同宿主病毒类、不同宿主病毒类),所述同宿主病毒类为具有和所述病毒同类宿主的病毒,所述不同宿主病毒类为具有和所述病毒不同类宿主的病毒,所述第二三元组网络的损失函数
7.根据权利要求4所述的一种病毒宿主预测的方法,其特征在于,S24所述匹配出病毒可能的宿主细菌具体包括:将所述病毒序列的k-mer频度向量输入所述训练后的第二三元组网络,得到特征变换后的特征向量,通过计算所述特征向量的向量相似度来匹配病毒可能的宿主细菌,所述向量相似度采用欧氏距离算法或者余弦相似度算法计算。
8.一种病毒基因识别的系统,其特征在于,包括:
宏基因组数据预处理模块:配置用于获取待测样本的宏基因组数据;
宏基因组频度向量计算模块:配置用于获取所述宏基因组的k-mer频度向量;
病毒-细菌三元组训练模块:配置用于构建三元组并输入到第一三元组网络进行训练,训练后的第一三元组网络使病毒与细菌的特征向量距离增大;
病毒序列识别模块:配置用于将所述宏基因组的k-mer频度向量输入所述训练后的所述第一三元组网络,从中识别出病毒序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210291560.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于负载均衡设备的会话处理方法及装置
- 下一篇:一种车载型雨水口清污装置