[发明专利]一种基于深度学习算法的新型冠状病毒分类方法在审
申请号: | 202110045563.2 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112735604A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 马宝山;张树正;张新宇;高宗江;柴冰洁;侯晓宇;熊桐 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16H50/80 | 分类号: | G16H50/80;G06K9/62;G06F17/14;G06N3/04;G06N3/08 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 张海燕;杨威 |
地址: | 116000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 算法 新型 冠状病毒 分类 方法 | ||
本发明提供一种基于深度学习算法的新型冠状病毒分类方法,用于解决现有技术中存在的分类精度较低的技术问题,实现步骤为:获取现有可用病毒序列和新型冠状病毒数据集,预处理病毒序列数据集,使用三个级联的自动编码器将预处理后高维冗余的病毒序列特征进行特征提取实现数据降维,获取病毒序列非线性抽象特征,获取训练集数据和测试集数据,获取最优新型冠状病毒序列分类模型,使用所述最优新型冠状病毒序列分类模型预测新型冠状病毒数据的标签,本发明有效提高了新型冠状病毒分类的准确性。
技术领域
本发明涉及新型冠状病毒分类技术领域,一种基于深度学习算法的新型冠状病毒分类方法。
背景技术
新型冠状病毒,是一类具有包膜、基因组为线性单股正链的RNA病毒,因为人群缺少对新型病毒株的免疫力,所以人群普遍易感。由于新型冠状病毒具有较长的潜伏期,所以迫切的需要阐明和分析病毒基因组序列,以便更好地了解这种新型病毒并且及时制定治疗方案。而现有的方法通过对序列数据进行相似性比较虽然已经找到了序列相似性。但是这种序列对比方法需要借助基因注释,以数据库作为参考,利用比对软件分析数据,在面对需要同时分析数千个细胞表观基因组序列时几乎是不可能的。传统的机器学习方法很难提取病毒序列的非线性抽象特征,只能提取低层特征,低层特征主要是对病毒序列局部信息的描述,并不能很好的描述病毒基因组序列的全部特征,在需要分析病毒基因组序列这种大数据的背景下,缺乏计算效率和预测准确性。
发明内容
本发明提出一种基于深度学习的方法来分类新型冠状病毒,此方法对于分析和处理病毒序列大数据场景时可以有效挖掘其潜在价值,不仅解决了比较基因组学方法在新型冠状病毒分类方面的困难,而且该算法能够逐层学习到病毒序列的非线性特征,提取到更加全面且有代表性的基因组数据特征,克服了传统机器学习方法无法提取高层特征(抽象特征)的缺陷,从而有效提高了分类器的分类性能,实现了对病毒基因组序列内在非线性关联机制的深入挖掘,其特征在于,包括如下步骤:
步骤1获取新型冠状病毒数据集,从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
步骤2预处理病毒序列数据集,得到特征向量;
步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;
步骤4根据所述模型的输入,训练最优新型冠状病毒分类模型;
步骤5使用所述最优新型冠状病毒分类模型预测新型冠状病毒数据的标签。
进一步地,所述步骤2预处理病毒序列数据集,得到特征向量,其实现步骤为:
步骤2.1将所述病毒序列进行字符序列初步编码字符得到数字序列;
步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
进一步地,步骤2.1将所述病毒序列进行字符序列初步编码字符得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为所述级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P1,P2,P3,P4,…,Pn},其中Pi∈{A,T,G,C},1≤i≤n,对于每一条字符序列Pi,编码字符T/C=1,A/G=-1,经过初步编码后的数值序列记为:G=(D1,D2,D3…Dn),其中Di是序列Pi的离散数值表示,1≤i≤n。
进一步地,步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;,其实现步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045563.2/2.html,转载请声明来源钻瓜专利网。