[发明专利]一种筛查致癌性化学品的集成学习方法在审
| 申请号: | 202210316494.9 | 申请日: | 2022-03-29 |
| 公开(公告)号: | CN114743614A | 公开(公告)日: | 2022-07-12 |
| 发明(设计)人: | 陈景文;吴超;傅志强;王中钰;解怀君;李雪花 | 申请(专利权)人: | 大连理工大学 |
| 主分类号: | G16C20/70 | 分类号: | G16C20/70;G16C20/90;G16C20/30;G06N20/20;G06Q10/06;G06Q50/26 |
| 代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 隋秀文 |
| 地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 致癌 化学品 集成 学习方法 | ||
本发明属于面向化学品风险管理的高通量筛查技术领域,公开一种筛查致癌性化学品的集成学习方法。在已知化学品分子结构的基础上,通过计算其分子指纹,应用所构建的方法,即可筛查出具有致癌性的化学品。该方法简便高效、可节省实验测试费用。方法的构建过程如下:构建化学品致癌性数据集;分子PubChem指纹计算并进行预处理和特征筛选;集成模型训练;选用准确率等指标对模型性能进行评价;参照OECD导则表征模型应用域;本发明建立的筛查模型具有良好的拟合能力、稳健性和预测能力,能够有效筛查应用域内具有致癌性的化学品,为化学品的健全管理提供必要的工具,具有重要意义。
技术领域
本发明属于面向化学品风险管理的高通量筛查技术领域,涉及到一种基于定量构效关系(QSAR)模型筛查致癌性化学品的方法。
背景技术
致癌性化学品的筛查,是化学品风险管理的核心内容之一。致癌性是指人类暴露于某些化学品后,这些化学品可诱发个体癌症的发生或增加群体癌症发病率的性质。因其产生后果的严重性,因此有必要在其进入到环境前对具有致癌性的化学品进行筛查。
经济合作与发展组织(OECD)发布的相关导则(OECD导则451)主要基于啮齿动物的致癌试验。但这种测试方法,耗时长、效率低并且有违动物伦理,难以实现对数量众多的化学品的致癌性进行一一评定。需要发展高效(高通量)的筛查技术。基于定量构效关系(QSAR)的计算模拟技术,建立化学品分子结构特征与其致癌性之间的关联,可有效筛查具有致癌性的化学品。
随着化学品种类的多样性增加,分子特征更加丰富,能够在同类化学品的少数物理化学描述符与其性质之间构建线性的QSAR已不能满足筛查需求。近年来,基于机器学习算法的QSAR在挖掘预测终点与大量分子特征内在联系方面呈现出较强优势,其中,集成学习策略的引入,能够发挥多种机器学习算法的优势,从而有效提高模型的预测性能,有望在致癌性化学品筛查方面发挥重要作用,有助于筛选优先控制具有致癌性的化学品。
目前,已有一些研究构建了化学品致癌性的QSAR预测模型。文献“FoodChem.Toxicol.,2016,97,141-149.”构建了基于致癌潜力数据库(CPDB)中1042种化学品描述符与指纹特征相结合预测化学品致癌性的朴素贝叶斯模型;文献“Regul.Toxicol.Pharmacol.,94,8-15.”构建了基于多个数据库(包括体内大鼠致癌数据库ISSCAN)中的化合物的描述符的k近邻、随机森林和多层感知机等模型。此外,文献“Sci.Rep.,7,2118.”构建了基于CPDB数据库中1003种化合物的指纹特征的单一算法的集成模型。已有模型未进行明确的应用域表征,并且每种机器学习算法都有其优势,基于单一算法的集成学习模型难以发挥出算法各自的优势。因此,有必要发展基于多种算法的集成学习模型来筛查致癌性化学品。
基于以上原因,通过对CPDB数据库中的化合物进行处理,获取了805种化学品的致癌性数据,通过PaDEL-Descriptor软件计算了这些化合物的PubChem指纹,构建了筛查致癌性化学品的集成学习模型,并对模型应用域进行了表征,明确了模型的适用范围。
发明内容
本发明构建了一种高效的筛查致癌性化学品的集成学习方法,该方法可以根据化学品SMILES码计算得到的PubChem指纹,构建预测化学品致癌性的分类模型,为致癌的化学品筛查提供基础工具;在建模过程中参照OECD对QSAR模型构建和使用导则,进行了内、外部验证考察模型的稳健性和预测能力。
本发明的技术方案:
一种筛查致癌性化学品的多种算法集成的方法,步骤如下:
(1)数据库构建
从CPDB数据库整理了805种化学品的致癌终点数据,其中包括427种致癌物和378种非致癌物;这些数据中不包括无机物、有机金属化合物以及混合物,C原子数小于3的化合物,分子质量40和600的化合物。
(2)计算化学品的分子指纹
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210316494.9/2.html,转载请声明来源钻瓜专利网。





