[发明专利]一种筛查致癌性化学品的集成学习方法在审
| 申请号: | 202210316494.9 | 申请日: | 2022-03-29 |
| 公开(公告)号: | CN114743614A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 陈景文;吴超;傅志强;王中钰;解怀君;李雪花 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/90;G16C20/30;G06N20/20;G06Q10/06;G06Q50/26 |
| 代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 隋秀文 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 致癌 化学品 集成 学习方法 | ||
1.一种筛查致癌性化学品的集成学习方法,其特征在于,步骤如下:
(1)数据库构建
从致癌潜力数据库CPDB中整理805种化学品致癌性数据,其中包括427种致癌物和378种非致癌物,并获取化学品对应的SMILES码;
(2)计算化学品的分子指纹
将记载化学品SMILES码的CSV格式文件转化成SDF格式文件;根据SDF格式文件计算805种化学品的PubChem分子指纹;
(3)模型训练
以化学品的PubChem分子指纹作为模型的输入,有无致癌性作为模型的预测终点,构建分类模型;将数据集按3:1的比例随机拆分为训练集和测试集,内部验证采取十折交叉验证重复十次,以减小随机误差;测试集用于模型的外部验证;采用四种机器学习算法:支持向量机、随机森林、梯度提升决策树和人工神经网络作为基分类器,采取三三组合的方式并结合软投票策略构建4个集成模型;软投票策略中各个基分类器的权重相同;在人工神经网络模型中,为了避免过拟合,采用批处理和Dropout方法;所有基分类器通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建集成模型,并对验证集化学品的致癌性进行预测,表征模型的外部预测性能;
模型调节的超参数如下:支持向量机的最佳超参数为径向基作为核函数,C=1000,gamma=1;随机森林的最佳超参数为用gini指数划分属性,最大深度max_depth为40,弱分类器即决策树的数目n_estimators为1000,每棵决策树的最大特征数为总特征数的平方根max_features='sqrt',随机种子random_state设为10;梯度提升决策树的最佳超参数为学习率learning_rate等于0.001,max_depth=20,n_estimators=2000,max_features='sqrt',random_state=10;人工神经网络的最佳超参数为隐藏层神经元neurons个数为512,每批次训练的样本数batch_size为500,dropout_rate=0.5,总迭代次数epochs为500,输入层采用线性整流函数作为激活函数,隐藏层采用sigmoid函数作为激活函数,二分类的交叉熵作为损失函数,优化器选择RMSProp;
(4)模型性能评估
使用训练集准确率RA,敏感度RSE,特异性RSP和受试者工作特征曲线下的面积AROC表征模型拟合优度;验证集的RA,RSE,RSP,AROC和马修斯相关系数RMCC表征模型预测能力;使用训练集的十折交叉验证的标准偏差STD表征模型稳健性;
(5)应用域表征
生成化学品的MACCS分子指纹,计算验证集化学品分子A与训练集化学品分子B之间的谷本相似度,计算公式如下:
其中,SAB是分子A和B的谷本相似度,XjA是分子A的第j个指纹特征,XjB是分子B的第j个特征,n是指纹的特征位数;
通过自行定义的相似度阈值Scutoff和最少相似分子数量Nmin来定义应用域,即若训练集中与目标分子的谷本相似度大于Scutoff的化学品数超过Nmin,则判定该分子处于应用域内。
2.根据权利要求1所述的方法,其特征在于,所定义的应用域的阈值为:Scutoff=0.85,Nmin=1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210316494.9/1.html,转载请声明来源钻瓜专利网。





