[发明专利]基于图卷积神经网络的药物-靶标亲和力预测系统、计算机设备、存储介质在审
申请号: | 202110028123.6 | 申请日: | 2021-01-07 |
公开(公告)号: | CN114743590A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 宋弢;田庆雨;刘嘉丽;刘大岩;杜珍珍;钟悦 | 申请(专利权)人: | 中国石油大学(华东) |
主分类号: | G16B15/30 | 分类号: | G16B15/30;G16B40/00;G16B15/20;G06N3/08;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 266580 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 图卷 神经网络 药物 靶标 亲和力 预测 系统 计算机 设备 存储 介质 | ||
本发明公开了一种基于图卷积神经网络预测药物靶标亲和力的系统,属于药物重定位技术领域。该系统包括三条通道,分别提取药物二维表示的特征向量、药物SMILES表达式的上下文关联关系的特征向量和蛋白质序列的上下文关联关系的特征向量,之后将三种特征向量拼接在一起,输入到全连接神经网络中,进而获取药物靶标亲和力的预测值。模型的输入为药物的二维表示、药物的SMILES表达式和蛋白质序列,最终获取药物与靶标的亲和力预测值。
技术领域
本发明涉及药物重定位预测技术领域,特别涉及基于图卷积神经网络的药物-靶标亲和力预测系统、计算机设备、存储介质。
背景技术
实验确认新的药物-靶点相互作用(DTIs)并不是一件容易的事,因为体外实验既费力又费时。即使已确认的DTI被用于开发新药(包括未被批准的药物),这种新药被批准用于人类使用可能需要很多年,估计成本可能超过10亿美元。此外,虽然开发新药需要巨大的投资,但往往会失败。事实上,根据Thomson Reuters生命科学咨询公司的报告,在2008年至2010 年期间,108个新药和再利用药物的第二阶段失败,51%是由于疗效不足。这一观察结果凸显了以下需求:(1)新的、更合适的药物靶点,(2)能够提高药物发现效率的硅片方法,在药物发现过程的最初阶段筛选大量的药物,从而引导那些可能表现出更好疗效的药物。在这方面,预测DTIs,特别是预测药物与靶点结合亲和力的方法非常有意义。
迄今为止开发的大多数方法都是利用二元分类来预测药物与其靶点之间是否存在相互作用。然而,预测药物与其靶点之间的结合强度更有参考价值,同时,也更具挑战性。如果该强度不够,这样的DTI可能没有作用。因此,开发预测药物与靶点结合亲和力的方法具有重要价值。
发明内容
本发明实施例提供了一种基于图卷积神经网络的药物-靶标亲和力预测系统、计算机设备、存储介质为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了基于图卷积神经网络的药物-靶标亲和力预测系统。
在一些可选实施例中,所述系统包括双向门控循环单元(BiGRU)模型,所述的双向门控循环单元模型包括两个门控循环单元(GRU)组成的序列处理模型,一个输入是向前输入,另一个输入是反向输入,是一个只有输入门和忘记门双向递归神经网络。模型的输入为药物的SMILES表达式,最终输出为200维的向量来表示SMILES表达式。
可选的,所述的门控循环单元(GRU)对多元时间序列进行充分的特征提取,不断学习多元时间序列的长期依赖关系,其具体包括:首先通过上一个传输下来的状态和当前节点的输入来获取两个门控状态,分别是控制重置的门控(reset gate)和控制更新的门控(update gate),得到门控信号之后,使用重置门控来得到“重置”之后的数据,将该数据与当前节点的输入进行拼接,再通过双曲正切函数将数据缩放到-1~1的范围内,最后使用上文所述的更新门控进行“遗忘”和“记忆”功能,将状态进行更新到0~1之间,门控信号越接近1,代表“记忆”下来的数据越多。
可选的,所述系统包括三个长短期记忆网络单元(LSTM)模型,所述的长短期记忆网络单元模型包括遗忘门、输入门和输出门组成的神经网络模型。模型的输入为蛋白质序列,输出为192维的向量来表示蛋白质序列。
可选的,所述的系统包括四种图卷积神经网络(GNN)模型,所述图卷积神经网络模型包括图卷积神经网络模型(GCN)、图注意力神经网络模型(GAT)、图同构网络模型(GIN)和图卷积神经网络与图注意力神经网络联合模型(GCN_GAT)。模型的输入为由SMILES字符串转换而来的二维分子图,最终的输出为128维的向量来表示二维分子图。
可选的,所述系统包括两个全连接神经网络模型。模型的输入为上述输出的三种向量拼接而成的向量,输出为药物-靶标亲和力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国石油大学(华东),未经中国石油大学(华东)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110028123.6/2.html,转载请声明来源钻瓜专利网。