[发明专利]一种筛查致癌性化学品的集成学习方法在审

专利信息
申请号: 202210316494.9 申请日: 2022-03-29
公开(公告)号: CN114743614A 公开(公告)日: 2022-07-12
发明(设计)人: 陈景文;吴超;傅志强;王中钰;解怀君;李雪花 申请(专利权)人: 大连理工大学
主分类号: G16C20/70 分类号: G16C20/70;G16C20/90;G16C20/30;G06N20/20;G06Q10/06;G06Q50/26
代理公司: 辽宁鸿文知识产权代理有限公司 21102 代理人: 隋秀文
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 致癌 化学品 集成 学习方法
【权利要求书】:

1.一种筛查致癌性化学品的集成学习方法,其特征在于,步骤如下:

(1)数据库构建

从致癌潜力数据库CPDB中整理805种化学品致癌性数据,其中包括427种致癌物和378种非致癌物,并获取化学品对应的SMILES码;

(2)计算化学品的分子指纹

将记载化学品SMILES码的CSV格式文件转化成SDF格式文件;根据SDF格式文件计算805种化学品的PubChem分子指纹;

(3)模型训练

以化学品的PubChem分子指纹作为模型的输入,有无致癌性作为模型的预测终点,构建分类模型;将数据集按3:1的比例随机拆分为训练集和测试集,内部验证采取十折交叉验证重复十次,以减小随机误差;测试集用于模型的外部验证;采用四种机器学习算法:支持向量机、随机森林、梯度提升决策树和人工神经网络作为基分类器,采取三三组合的方式并结合软投票策略构建4个集成模型;软投票策略中各个基分类器的权重相同;在人工神经网络模型中,为了避免过拟合,采用批处理和Dropout方法;所有基分类器通过网格搜索法确定算法的最佳超参数;基于最佳超参数构建集成模型,并对验证集化学品的致癌性进行预测,表征模型的外部预测性能;

模型调节的超参数如下:支持向量机的最佳超参数为径向基作为核函数,C=1000,gamma=1;随机森林的最佳超参数为用gini指数划分属性,最大深度max_depth为40,弱分类器即决策树的数目n_estimators为1000,每棵决策树的最大特征数为总特征数的平方根max_features='sqrt',随机种子random_state设为10;梯度提升决策树的最佳超参数为学习率learning_rate等于0.001,max_depth=20,n_estimators=2000,max_features='sqrt',random_state=10;人工神经网络的最佳超参数为隐藏层神经元neurons个数为512,每批次训练的样本数batch_size为500,dropout_rate=0.5,总迭代次数epochs为500,输入层采用线性整流函数作为激活函数,隐藏层采用sigmoid函数作为激活函数,二分类的交叉熵作为损失函数,优化器选择RMSProp;

(4)模型性能评估

使用训练集准确率RA,敏感度RSE,特异性RSP和受试者工作特征曲线下的面积AROC表征模型拟合优度;验证集的RA,RSE,RSP,AROC和马修斯相关系数RMCC表征模型预测能力;使用训练集的十折交叉验证的标准偏差STD表征模型稳健性;

(5)应用域表征

生成化学品的MACCS分子指纹,计算验证集化学品分子A与训练集化学品分子B之间的谷本相似度,计算公式如下:

其中,SAB是分子A和B的谷本相似度,XjA是分子A的第j个指纹特征,XjB是分子B的第j个特征,n是指纹的特征位数;

通过自行定义的相似度阈值Scutoff和最少相似分子数量Nmin来定义应用域,即若训练集中与目标分子的谷本相似度大于Scutoff的化学品数超过Nmin,则判定该分子处于应用域内。

2.根据权利要求1所述的方法,其特征在于,所定义的应用域的阈值为:Scutoff=0.85,Nmin=1。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210316494.9/1.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top