[发明专利]一种预测模型的建立方法有效

专利信息
申请号: 201710455002.3 申请日: 2017-06-16
公开(公告)号: CN107330254B 公开(公告)日: 2020-08-14
发明(设计)人: 乔显亮;吴昊;傅志强;张新 申请(专利权)人: 大连理工大学
主分类号: G16C20/10 分类号: G16C20/10;G16C20/30;G01N33/00
代理公司: 大连理工大学专利中心 21200 代理人: 温福雪;侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种预测模型的建立方法。基于化合物结构计算具有结构特征的分子描述符,采用多元线性回归方法,构建了有机化合物的QSAR模型,模型的建立严格遵循经济合作与发展组织关于QSAR模型的构建和使用导则。所构建的模型应用域明确,包含197种结构不同的有机化合物,包括含有碳碳双键、碳碳三键、醇羟基、酚羟基、羰基、醛基、羧基、酯基、酰胺基、硝基、氨基、氰基、醚键、二硫键、氟、氯、溴、碘、砷等基团的化合物。模型具有良好的拟合能力、稳健性和预测能力,能够快速、准确预测有机化合物的值,为基于硫酸自由基的高级氧化技术的应用提供参考。
搜索关键词: 一种 预测 模型 建立 方法
【主权项】:
一种预测水相中有机物与硫酸自由基水相反应速率常数的定量结构活性关系模型,其特征在于,步骤如下:收集得到197种有机化合物的‑实验测定值,根据目标化合物名称和CAS号,确定目标化合物对应的结构,接下来对各分子结构进行MM2预优化,在此基础上,以PM6 eps=78.6 CHARGE=0 EF 1SCF GNORM=0.0100MULLIK POLAR DEBUG SHIFT=80为关键词,对三维mol文件进行PM6结构优化,生成最终用于计算描述符的mol文件和out文件;有机化合物的结构通过量子化学描述符和Dragon描述符进行描述,量子化学描述符从优化后的结构中提取,Dragon描述符根据优化后的结构,计算得到4885个Dragon描述符,对符合以下原则的Dragon描述符进行舍弃:(1)标准偏差值低于0.0001的描述符;(2)常数或近常数描述符;(3)相关性不小于0.99的描述符;(4)存在缺失值的描述符;最终得到1241个Dragon描述符;将197种有机化合物随机分成5组,按照4:1的比例分为训练集和验证集;用去多法(Leave‑many‑out)将每组各做一次验证集,同时其余四组为训练集,使用逐步多元线性回归(MLR)方法对训练集数据进行拟合建模,用决定系数R2adj和均方根误差RMSE表征模型拟合度,按照拟合度的高低进行排序;然后进行内部验证和外部验证,用去一法交叉验证系数Q2LOO和Bootstrapping法交叉验证系数Q2BOOT表征模型的稳健性;用R2ext、Q2ext及RMSEext表征模型预测能力;综合模型的拟合度、稳健性、预测能力等多项指标选出最合适的模型,所得模型如下:log k=2.383×(AVS_B(p))+0.614×(EHOMO)‑1.043×(GATS3m)‑0.566×(SaaaC)+0.716×(nArNO2)‑0.312×(MPC05)+0.482×(IC1)‑1.625×(SpMax_EA(dm))+8.317ntrain=158,m=8,R2adj=0.819,Q2LOO=0.805,Q2BOOT=0.787,RMSEtrain=0.486,next=39,R2ext=0.786,Q2ext=0.784,RMSEext=0.530式中,k指有机物与硫酸自由基水相反应速率常数,单位为M‑1·s‑1;ntrain为训练集包含的化合物个数,m为模型选用的描述符个数,R2adj为调整决定系数,Q2LOO为去一法交叉验证系数,Q2BOOT为Bootstrapping法交叉验证系数,RMSEtrain为训练集的均方根误差,next为验证集包含的化合物个数,R2ext为外部验证的决定系数,Q2ext为外部验证系数,RMSEext为外部验证的均方根误差;模型建立采用了8个Dragon描述符,分别为AVS_B(p)、EHOMO、GATS3m、SaaaC、nArNO2、MPC05、IC1和SpMax_EA(dm);其中,AVS_B(p)是极化率加权的载荷矩阵的平均顶点加和;EHOMO是分子的最高占据分子轨道能量;GATS3m是质量加权的lag 3 Geary自相关系数,表征原子特性的相关性;SaaaC是aaaC电状态的数量;nArNO2是分子含有的连接在芳香集团上的硝基数量;MPC05是5阶分子路径计数;IC1是信息含量指数,即1阶邻域对称性;SpMax_EA(dm)是偶极矩加权的边界连接指数标准化后的主特征值;所得模型的R2adj=0.819,表明模型具有良好的拟合能力,Q2LOO=0.805,Q2BOOT=0.787,表明模型具有很强的稳健性,R2ext=0.786,Q2ext=0.784,表明模型具有良好的预测能力,能成功应用到训练集以外的化合物中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710455002.3/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top