[发明专利]基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法在审
申请号: | 202210394865.5 | 申请日: | 2022-04-15 |
公开(公告)号: | CN114743600A | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 刘奇磊;都健;赵雨靓;张磊;吴心远;孟庆伟 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00;G16B5/00;G16B15/00;G16B50/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 门控 注意力 机制 靶标 结合 亲和力 深度 学习 预测 方法 | ||
1.基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,包括以下具体步骤:
步骤1:建立结合亲和力数据库,用于后续的深度学习模型;
步骤2:将配体的SMILES字符串转换为配体矩阵,作为深度学习模型的输入;
步骤3:将蛋白质的氨基酸序列转换为蛋白质矩阵,作为深度学习模型的输入;
步骤4:构建用于模型训练的深度学习模型的架构,将配体矩阵送到一个全连接层和一个基于门增强的注意力层用于特征提取,通过矩阵行的加和方式来聚合配体片段的特征向量;
步骤5:将蛋白质矩阵先送到一维卷积层和最大池化层,以减少蛋白质矩阵的行数,然后再送入基于门增强的注意力层用于特征提取,通过矩阵行的加和方式来聚合蛋白质高阶氨基酸的特征向量;
步骤6:将聚合后的配体片段的特征向量与蛋白质高阶氨基酸的特征向量拼接在一起送入后续的全连接层以预测靶标-配体复合物的高/低结合亲和力的概率。
2.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤1具体包括:根据以下标准对结合亲和力数据库进行预处理:
步骤1.1:删除涉及IC50性质的条目,保留涉及Ki和Kd性质的条目;
步骤1.2:删除RDKit工具读取配体结构文件失败或Mol2vec方法找不到配体Morgen片段的条目;
步骤1.3:分别删除Morgen片段或氨基酸数大于阈值的靶标-配体复合物条目;
步骤1.4:Ki/dn的靶标-配体复合物标记为高结合亲和力,用“1”表示,而Ki/d≥n的靶标-配体复合物标记为低结合亲和力,用“0”表示,Ki/d表示Ki或Kd,n表示抑制或解离常数阈值;
最后,在应用上述步骤1.1-1.4标准后,获得独特的靶标-配体复合物样本存储在结合亲和力数据库中,用于后续的深度学习模型。
3.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤2具体包括:
步骤2.1:使用Morgan算法将分子的SMILES字符串表示转换为Morgen片段;
步骤2.2:将Mol2vec中的Morgen片段的特征向量嵌入到步骤2.1得到的Morgen片段中;将每个分子的Morgen片段的特征向量求和来表示整个分子的特征向量;
步骤2.3:基于Mol2vec描述符,每个配体样本由一个二维矩阵表示,其中矩阵行表示Morgen片段,矩阵列表示片段的特征向量。
4.根据权利要求1所述的基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法,其特征在于,步骤3具体包括:
步骤3.1:将蛋白质序列中每三个相邻的氨基酸视为一个高阶氨基酸;通过这种方式,将结合亲和力数据库中的蛋白质编写成高阶氨基酸字符串;
步骤3.2:通过深度学习模型中的嵌入方法,给每个高阶氨基酸字符串嵌入一个特征向量;
步骤3.3:每个蛋白质样本由一个二维矩阵表示,其中,矩阵行表示高阶氨基酸字符串,矩阵列表示高阶氨基酸字符串的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210394865.5/1.html,转载请声明来源钻瓜专利网。