[发明专利]一种化学结构感知的分子图像表示学习方法在审
| 申请号: | 202211654562.9 | 申请日: | 2022-12-22 |
| 公开(公告)号: | CN116313104A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 向鸿鑫;金淑婷;曾理;曾湘祥 | 申请(专利权)人: | 上海宇耀生物科技有限公司 |
| 主分类号: | G16H50/50 | 分类号: | G16H50/50;G16C10/00 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 和占宏 |
| 地址: | 201100 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 化学 结构 感知 分子 图像 表示 学习方法 | ||
本发明公开了一种化学结构感知的分子图像表示学习方法,其特征在于,包括预训练阶段和微调阶段,所述预训练阶段包括以下步骤:将分子的SMILES数据转化为分子图像和分子拓扑图两种模态;在每个分子图像和每个分子拓扑图上使用数据增强得到增强后的视角;使用图像编码器和拓扑图编码器分别提取分子图像中的视觉特征和分子拓扑图中的拓扑特征;使用模态内对比学习和模态间对比学习来优化图像编码器和拓扑图编码器;所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。解决了图像中化学语义知识无法被有效感知的问题以及拓扑图中特征表示不足的问题。
技术领域
本发明涉及分子表示学习领域,具体涉及一种化学结构感知的分子图像表示学习方法。
背景技术
分子表征学习被广泛认为是计算机辅助药物设计中最重要的任务之一,也是高效药物发现的先决条件。随着深度学习在各个领域的显著成功,深度学习也显示出在分子表示学习方面优于传统方法的强大潜力。与物理化学描述符、分子指纹或根据专家设计的定量构效关系(QSAR)等传统方法相比,深度学习不需要任何昂贵且耗时的手动特征提取的过程,并可以从大量分子中提取有意义的特征表示。
目前,分子表示学习领域存在以下不足:传统的基于人工观察的分子性质评估是非常繁琐、费时和主观的;基于拓扑图的分子表示学习方法有两个主要的限制,其一,浅层的图神经网络难以捕捉化合物的全局结构,其二,深层的神经网络容易出现过度平滑问题;基于分子图像的表示学习方法是一种新颖的表示学习方法,它将化学信息隐式地编码在图像信息中,模型对图像结构的感知是基于没有任何语义信息的像素,导致模型无法理解图像中的化学知识,使得很多潜在的化学信息没有被充分挖掘。
发明内容
本发明的目的在于:针对目前分子表示学习领域存在的不足,提供了一种化学结构感知的分子图像表示学习方法,提出了一种跨模态的基于图像和拓扑图的对比学习框架,通过在图像和拓扑图之间的对比学习,将拓扑图中的化学知识转移到图像中,迫使视觉信息与化学语义知识相对应,使得模型具备感知分子图像中化学结构的能力。同时,鉴于图像比拓扑图更容易提取全局结构特征的优势,分子图像能够很好的引导模型去理解拓扑图中的全局结构信息,很好地解决了拓扑图中的特征表示不足问题。
本发明的技术方案如下:
一种化学结构感知的分子图像表示学习方法,包括预训练阶段和微调阶段,所述预训练阶段包括数据获取、预处理、分子图像和拓扑图提取、分子图像和分子拓扑图数据增强、视觉特征和拓扑特征提取、模态内和模态间对比学习;
所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。
进一步的,所述数据获取包括从公开的小分子数据库中收集SMILES数据。
进一步的,所述预处理包括将获取的数据进行筛选,去除重复的SMILES数据以及无法处理的数据。
进一步的,所述分子图像和拓扑图提取包括以下步骤:
对于分子图像,将SMILES转化为224×224×3的分子图像;
对于分子拓扑图,将SMILES转化为拓扑图结构,并初始化拓扑图中原子和键的特征,特征包括原子类型、手性类型、分子的度、电荷数、是否有环和键的类型。
进一步的,所述分子图像和分子拓扑图数据增强包括以下步骤:
对于分子图像,使用颜色抖动、随机水平翻转、随机灰度、随机旋转和高斯模糊对图像增强,得到增强分子图像;
对于分子拓扑图,使用删除原子、置换键以及遮掩原子对分子拓扑图增强,得到增强分分子拓扑图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宇耀生物科技有限公司,未经上海宇耀生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211654562.9/2.html,转载请声明来源钻瓜专利网。





