[发明专利]一种基于深度学习的不对称催化反应对映选择性预测方法有效
申请号: | 202110637110.9 | 申请日: | 2021-06-08 |
公开(公告)号: | CN113362905B | 公开(公告)日: | 2022-07-08 |
发明(设计)人: | 廖佳宇;严泽伊;苗晓晔;刘悦;吴洋洋;钱玲慧;邵瑾宁 | 申请(专利权)人: | 浙江大学 |
主分类号: | G16C20/10 | 分类号: | G16C20/10;G16C20/20;G16C20/30;G16C20/70;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 不对称 催化 应对 选择性 预测 方法 | ||
本发明公开了一种基于深度学习的不对称催化反应对映选择性预测方法。该方法首先获取并整理异氰基乙酸酯参与的不对称催化反应数据,并设计模型训练集与样本外测试集;计算并处理反应涉及化合物的分子描述符,将其与反应条件汇总为一组特征向量输入模型;基于训练集分别构建深度神经网络和卷积神经网络回归模型并优化其超参数,进而获得能准确预测训练集反应对映选择性的模型;利用最佳神经网络模型预测样本外反应的对映选择性,检验模型的可迁移性。结果表明,该模型能够较准确地预测样本外反应的对映选择性,进一步验证了模型的稳健性与可迁移性。
技术领域
本发明涉及计算机科学与化学有机合成的交叉领域,特别是指一种基于深度学习的不对称催化反应对映选择性预测方法。
背景技术
不对称催化反应的对映选择性对于高效、精准地合成目标手性分子有重大参考价值,掌握反应对映选择性的规律对于新药研发进程具有巨大的推动作用。但是,传统的不对称催化反应体系的开发极度依赖个人经验,通过大范围的筛选和条件优化实现目标反应,费时、费力且成功率低。人工智能技术通过学习数据中隐藏的深层信息,挖掘内在关联,进而做出预测和判断。这种技术具备有效的洞察力和高效率,已经应用于生物制药、医疗诊断等诸多领域,大大提高了科研效率,促使众多行业发生变革。因此,许多国内外学者将人工智能技术应用于不对称催化中,涉及催化反应的预测、新型催化剂的设计以及对催化结构的理解等多个方面,为相关的催化反应提供了有价值的参考依据。但是这些工作仍然存在一定的局限性:(1)部分工作涉及的反应类型单一,样本数量较少,模型结果仅适用于该类反应,模型的可迁移性较差;(2)部分工作整体方法较为复杂,模型重现与迁移难度较大。
发明内容
为了寻找更为有效、应用范围更广的不对称催化反应对映选择性预测的实现方案,本发明将深度学习应用于异氰基乙酸酯参与的不对称催化反应,充分利用其强大的学习表征和数据处理能力,准确预测反应的对映选择性,提高合成效率。
为实现上述目的,本发明提供了一种基于深度学习的不对称催化反应对映选择性预测方法,该方法通过计算待预测反应涉及化合物的分子描述符,并将其与待预测反应的其余反应条件汇总为一组特征向量输入训练好的不对称催化反应对映选择性预测模型,获得预测的对映选择性。其中不对称催化反应对映选择性预测模型通过如下步骤构建和训练:
(1)获取并整理异氰基乙酸酯参与的不对称催化反应数据,构建自主数据库。反应数据包括反应涉及的化合物结构、其余反应条件及主要非对映异构体产物的对映体过量值(ee值),并将每个反应的ee值换算成过渡态自由能(ΔΔG≠),其中,反应涉及的化合物结构具体为反应物的结构、催化剂的结构和溶剂的结构等,其余反应条件包括催化剂的当量、反应温度、反应浓度等;
(2)计算反应数据中反应涉及的化合物的分子描述符及不同分子描述符的方差,将方差大于零的分子描述符与其余反应条件汇总成一组特征向量;
(3)构建神经网络回归预测模型,其中模型的输入为相关分子描述符及其余反应条件组成的特征向量,输出为反应的ΔΔG≠,从而预测不对称催化反应的对映选择性。基于自主数据库中的数据,采用真实值和预测值之间的平均相对误差作为损失函数对模型进行反向传播训练,直至损失函数收敛,获得训练完成的不对称催化反应对映选择性预测模型。
进一步地,基于不同催化体系,分别设计模型训练集进行训练;催化体系包括协同催化体系和有机催化体系。
进一步地,所述步骤1中,异氰基乙酸酯参与的不对称催化反应数据具体包括:异氰基乙酸酯结构、反应底物结构、有机催化剂或金属/手性配体的结构及其当量、溶剂结构、反应温度、反应浓度、ee值等。对于协同催化反应,反应催化剂为金属催化剂和手性配体/有机催化剂;对于有机催化反应,反应催化剂为有机催化剂。
进一步地,所述步骤1中,还包括根据每个反应变量的分类和分布情况,选择分布相对均匀、数据相对丰富的类别作为模型训练集,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110637110.9/2.html,转载请声明来源钻瓜专利网。