[发明专利]一种基于深度学习算法的新型冠状病毒分类方法在审
申请号: | 202110045563.2 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112735604A | 公开(公告)日: | 2021-04-30 |
发明(设计)人: | 马宝山;张树正;张新宇;高宗江;柴冰洁;侯晓宇;熊桐 | 申请(专利权)人: | 大连海事大学 |
主分类号: | G16H50/80 | 分类号: | G16H50/80;G06K9/62;G06F17/14;G06N3/04;G06N3/08 |
代理公司: | 大连至诚专利代理事务所(特殊普通合伙) 21242 | 代理人: | 张海燕;杨威 |
地址: | 116000 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 算法 新型 冠状病毒 分类 方法 | ||
1.一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,包括如下步骤:
步骤1获取新型冠状病毒数据集,所述数据集为从病毒宿主数据库和GISAID平台下载的所有的可用病毒序列和COVID-19序列;
步骤2预处理病毒序列数据集,得到特征向量;
步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入;
步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型;
步骤5使用所述最优新型冠状病毒序列分类模型预测新型冠状病毒数据的标签。
2.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤2预处理病毒序列数据集,得到特征向量,其实现步骤为:
步骤2.1将所述病毒序列进行字符序列编码字符得到数字序列;
步骤2.2将所述数字序列进行快速傅里叶变化得到所述数字序列的幅值;
步骤2.3根据所述幅值利用马氏距离构造特征向量。
3.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤3使用三个级联自动编码器进行特征提取将所述特征向量映射成为低维的高层特征,作为模型的输入,其实现步骤为:
步骤3.1为得到病毒序列特征,随机破坏所述特征向量的十分之一数据得到样本;
步骤3.2构建损失函数;
步骤3.3训练第一级自动编码器,得到第一层低维特征向量;
步骤3.4将第一级自动编码器的输出作为下一级编码器的输入,继续完成第二级自动编码器的训练,重复此步骤,直至完成第三级自动编码器的训练,得到病毒序列抽象的高层特征表达。
4.根据权利要求1所述的一种基于深度学习算法的新型冠状病毒分类方法,其特征在于,所述步骤4根据所述模型的输入,训练最优新型冠状病毒序列分类模型,其步骤为:
步骤4.1将训练集数据划分为K份,其中一份作为验证集,其余K-1份作为训练集;
步骤4.2使用贝叶斯优化得到最佳超参数;
步骤4.3根据所述最佳超参数使用深度学习网络进行训练,得到优化后的新型冠状病毒分类模型;
步骤4.4判断是否所有数据均被划分过是验证集,若是,则计算K次优化后的新型冠状病毒分类模型在测试集上的精度,精度最高的模型作为最优新型冠状病毒分类模型,若不是,重新选取所述训练集数据中没有划分为验证集过中的其中一份作为验证集,其余K-1份作为训练集,重复步骤4.2和步骤4.3。
5.根据权利要求2所述的一种基于深度学习算法的新型冠病毒分类方法,其特征在于,步骤2.1将所述病毒序列进行字符序列初步编码得到数字序列,实现方法为:
从数据库下载的病毒序列为字符序列,由A,T,G,C四种碱基符号表示,将其转化为所述级联自动编码器所识别的数字序列,假设病毒序列集合表示为D={P1,P2,P3,P4,…,Pn},其中Pi∈{A,T,G,C},1≤i≤n,对于每一条字符序列Pi,所述编码字符为T/C=1,A/G=-1,经过初步编码后的数值序列记为:G=(D1,D2,D3…Dn),其中Di是序列Pi的离散数值表示,1≤i≤n。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连海事大学,未经大连海事大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110045563.2/1.html,转载请声明来源钻瓜专利网。