[发明专利]一种化学结构感知的分子图像表示学习方法在审
| 申请号: | 202211654562.9 | 申请日: | 2022-12-22 |
| 公开(公告)号: | CN116313104A | 公开(公告)日: | 2023-06-23 |
| 发明(设计)人: | 向鸿鑫;金淑婷;曾理;曾湘祥 | 申请(专利权)人: | 上海宇耀生物科技有限公司 |
| 主分类号: | G16H50/50 | 分类号: | G16H50/50;G16C10/00 |
| 代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 和占宏 |
| 地址: | 201100 上海市*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 化学 结构 感知 分子 图像 表示 学习方法 | ||
1.一种化学结构感知的分子图像表示学习方法,其特征在于,包括预训练阶段和微调阶段,所述预训练阶段包括数据获取、预处理、分子图像和拓扑图提取、分子图像和分子拓扑图数据增强、视觉特征和拓扑特征提取、模态内和模态间对比学习;
所述微调阶段包括数据获取、预处理、分子图像和拓扑图提取、视觉特征和拓扑特征提取以及下游任务预测。
2.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述数据获取包括从公开的小分子数据库中收集SMILES数据。
3.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述预处理包括将获取的数据进行筛选,去除重复的SMILES数据以及无法处理的数据。
4.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述分子图像和拓扑图提取包括以下步骤:
对于分子图像,将SMILES转化为224×224×3的分子图像;
对于分子拓扑图,将SMILES转化为拓扑图结构,并初始化拓扑图中原子和键的特征,特征包括原子类型、手性类型、分子的度、电荷数、是否有环和键的类型。
5.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述分子图像和分子拓扑图数据增强包括以下步骤:
对于分子图像,使用颜色抖动、随机水平翻转、随机灰度、随机旋转和高斯模糊对图像增强,得到增强分子图像;
对于分子拓扑图,使用删除原子、置换键以及遮掩原子对分子拓扑图增强,得到增强分分子拓扑图。
6.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述视觉特征和拓扑特征提取包括使用图像编码器和拓扑编码器分别提取分子图像和拓扑图的视觉特征和拓扑特征;提取的特征分别是原始视觉特征、增强视觉特征、原始拓扑特征和增强拓扑特征。
7.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述模态内和模态间对比学习包括以下步骤:
在模态内对比学习中,使用NT-Xent损失函数在原始视觉特征和增强视觉特征对,及原始拓扑特征和增强拓扑特征对上计算特征的差异性损失;
在模态间对比学习中,使用NT-Xent损失函数在原始视觉特征和增强拓扑特征对上计算跨模态之间的特征差异损失;
通过在特征之间的不断对比学习,预训练分子图像编码器和分子拓扑图编码器。
8.根据权利要求1所述的一种化学结构感知的分子图像表示学习方法,其特征在于,所述下游任务预测包括在预训练完成后,分别在分子图像编码器和分子拓扑图编码器之后加入多层感知机,完成下游任务的预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海宇耀生物科技有限公司,未经上海宇耀生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211654562.9/1.html,转载请声明来源钻瓜专利网。





