[发明专利]基于ChemCNet的有机合成智能分析方法及系统在审
申请号: | 202211385153.3 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115691686A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 彭李超;王恒哲;杨晓慧;郭艳慧;李子欣;余亚萍 | 申请(专利权)人: | 河南大学 |
主分类号: | G16C10/00 | 分类号: | G16C10/00;G16C20/10;G16C20/70;G06N3/08;G06N3/0464;G06N3/048 |
代理公司: | 郑州芝麻知识产权代理事务所(普通合伙) 41173 | 代理人: | 张丹丹 |
地址: | 450046 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 chemcnet 有机合成 智能 分析 方法 系统 | ||
1.一种基于ChemCNet的有机合成智能分析方法,其特征在于,该方法包括以下步骤:
1)特征描述符的计算,是根据软件将每种偶联反应的组分转化为相应的特征描述符;
2)模型的建立,是构建ChemCNet模型对特征描述符进行特征学习和产率的智能回归预测;
3)使用特征重要性和SHAP值对ChemCNet模型的预测结果进行可视化分析。
2.根据权利要求1所述的一种基于ChemCNet的有机合成智能分析方法,其特征在于,步骤1)包括:
(1.1)将化学反应物和试剂导入软件,软件自动计算每种偶联反应组分的特征描述符,将化学反应物转换为一维数据;
(1.2)将RFE与CatBoost相结合,并采用SHAP为特征打分从而筛选特征,再将数据联合得到二维矩阵的形式并对数据进行标准化。
3.根据权利要求2所述的一种基于ChemCNet的有机合成智能分析方法,其特征在于,步骤(1.2)包括:
选取RFE后向搜索方法,SHAP值作为特征评价标准,为特征打分;根据后向搜索的原理,删除特征得分最低的特征,然后在剩余特征上继续构建模型,重新得到新一轮的特征排序,再删除得分最低的特征,重复此过程,依次删除特征得分最低的特征,直至达到指定的特征数量;
其中,在每一次的迭代过程中,会重新评价当前的剩余特征构成的集合,每一个特征的得分在反复迭代过程中得到调整,最终以模型的预测指标RMSE的形式呈现;得到筛选后的特征之后,将这些特征划分为训练集和测试集;并将其分别与对应的产率匹配;再对数据进行标准化处理;之后将筛选后得到的数据集(1×24)扩展为(1×25)。
4.根据权利要求1所述的一种基于ChemCNet的有机合成智能分析方法,其特征在于,步骤2)包括:
(2.1)构建ChemCNet模型;构建注意力卷积神经网络,将训练集导入卷积神经网络进行特征学习,挖掘数据深层特征,在卷积神经网络模型中融入注意力,通过不断迭代学习,分别计算每轮迭代的损失函数值,直至得到的损失函数值最小时,保存训练好的模型;
(2.2)产率的智能回归预测;将训练集和对应的产率导入卷积神经网络进行特征学习,将最后一层全连接层的输出作为CatBoost模型的输入数据进行训练预测,即为最终预测结果;采用可决系数和均方根误差评估模型的预测效果;
(2.3)对训练好的模型进行样本外预测,若样本外预测是有效的,则验证了训练好的模型的有效性和有泛化性;
(2.4)用户可根据预测效果,结合自身需求,自我进行参数调整,若不满意,则用户可以调整卷积神经网络的卷积核大小,层数、节点数,以及CatBoost相关参数,并返回步骤(2.2),直至用户满意。
5.根据权利要求1所述的一种基于ChemCNet的有机合成智能分析方法,其特征在于,步骤3)包括:
(3.1)通过CatBoost输出特征描述符的重要性排序,以此找到对反应产率影响显著的描述符;使用SHAP值分析描述符与反应产率间的相关关系,以及单一特征反应产率间的内部关系,为用户提供有关有机化学偶联反应的决策信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211385153.3/1.html,转载请声明来源钻瓜专利网。