[发明专利]基于量子化学和集成学习的分子毒性预测方法在审

专利信息
申请号: 202211508861.1 申请日: 2022-11-29
公开(公告)号: CN115732039A 公开(公告)日: 2023-03-03
发明(设计)人: 王珣;王璐璐;请求不公布姓名;焦麟钫;任咏琪;高畅楠 申请(专利权)人: 中国石油大学(华东)
主分类号: G16C20/30 分类号: G16C20/30;G16C20/70;G16B15/00
代理公司: 暂无信息 代理人: 暂无信息
地址: 266580 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 量子 化学 集成 学习 分子 毒性 预测 方法
【说明书】:

发明提供了一种基于量子化学和集成学习预测分子毒性的方法,它可以克服毒性预测领域标记数据较少的问题。与现有工作相比,本方法首创性地将量子化学应用于药物分子毒性预测领域。本方法首先获取分子指纹以及电子的轨道、偶极矩等量子化学信息,以得到分子的表示;在下游预测阶段,本方法将梯度提升决策树(GBDT)和引导聚集算法(Bagging)融合,行成一种新颖的集成学习方法,使用这种方法得到的模型方差和偏差都很小。对各项任务的一系列实验表明,本方法即使在数据量小于300的小数据集上依旧可以取得很好的性能,这可以在新药研发的先导化合物筛选阶段极大节省时间和人力成本。

技术领域

本发明属于生物信息学中的人工智能辅助药物研发领域,具体设计一种基于量子化学和集成学习的分子毒性预测方法。

背景技术

分子毒性预测是药物发现的一个重要挑战,它直接关系到药物的命运与人类的健康。毒性是药物研发失败的一个重要问题,为了避免药物研发后期的损耗,通常需要在药物发现的早期对其毒性进行分析预测。传统的分子性质预测方法首先通过细胞实验进行研究,然后通过动物实验进行进一步验证,但由于时间长、成本高且需要消耗大量动物材料,这种方法已经逐渐被淘汰。因此,需要快速有效的计算工具来预测分子的毒性。

随着机器学习的进步,越来越多的药物毒性预测模型开始使用机器学习方法,但这些模型往往不稳定,而且方差和偏差都比较大。此外,这些模型在提取分子特征阶段通常将分子视为拓扑图,没有充分利用分子的3D信息,而分子的3D信息对确定它的毒性十分重要。

发明内容

本发明的目的是为了解决上述分子毒性预测领域所面临的困难和挑战,提供一种基于量子化学和集成学习的分子毒性预测方法,能够对候选药物的毒性进行准确预测,从而缩小候选药物的范围,显著降低开发新药的成本和时间。本发明的技术方案如下:

一种基于量子化学和集成学习的分子毒性预测方法,其包括分子二维结构信息提取模块、分子三维结构信息提取模块和分子毒性预测模块。

分子二维结构信息提取模块,使用基于路径的指纹,计算所有介于最短路径和最长路径之间的分子路径,也就是子图,对子图进行哈希运算,产生位ID,并在每一位上进行设置。为了使计算机方便处理,生成2048位固定长度的指纹。

分子三维结构信息提取模块,通过Psi4库计算了分子的量子化学性质,即能量、最高占有分子轨道、最低占有分子轨道、能带隙、偶极矩、Mulliken电荷和电荷的均值和方差、质量、体积和密度,这些数据能够使分子的3D结构能够得到更详细的表示。将以上数据进行归一化后,即可得到分子的量子化学信息,也就是三维结构信息。

分子毒性预测模块,对分子的二维结构信息和三维结构信息进行拼接,得到分子的表示,再使用集成学习得到分子的毒性预测结果。在集成学习中,引导聚集算法(Bootstrap aggregating,简称Bagging)为集成学习框架,梯度提升决策树(GradientBoosting Decision Tree,简称GBDT)为基学习器。

进一步的,所述基于量子化学和集成学习的分子毒性预测方法的分子二维结构信息提取模块具体包括:

1)使用PandasTools工具包生成分子的mol对象;

2)利用化学信息学的开源工具包Rdkit中的Chem.RDKFingerprint方法将药物分子的mol对象转换为化学指纹;

进一步的,所述基于量子化学和集成学习的分子毒性预测方法的分子三维结构信息提取模块具体包括:

1)数据预处理:从原始数据集中取出分子的ID号、SMILES串以及活性数据,以csv格式输出;然后通过工具包RDKit判断分子是否可以通过SMILES串生成Mol对象,无法生成的分子将会被删除;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202211508861.1/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top