[发明专利]一种基于多维度信息的药物小分子-蛋白靶点反应预测方法在审
| 申请号: | 202011168551.0 | 申请日: | 2020-10-28 |
| 公开(公告)号: | CN112331273A | 公开(公告)日: | 2021-02-05 |
| 发明(设计)人: | 柳俊宏;李成涛 | 申请(专利权)人: | 星药科技(北京)有限公司 |
| 主分类号: | G16C20/10 | 分类号: | G16C20/10;G16C20/50;G16C20/70 |
| 代理公司: | 北京中南长风知识产权代理事务所(普通合伙) 11674 | 代理人: | 郑海 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 多维 信息 药物 分子 蛋白 反应 预测 方法 | ||
本发明公开了一种基于多维度信息的药物小分子‑蛋白靶点反应预测方法,包括:(1)获取蛋白靶点的特征表示,包括氨基酸向量、蛋白质三维空间结构特征、蛋白质化学特征;(2)获取药物小分子的特征表示,包括药物分子的语义特征、BERT的通用网络特征、药物分子本身的化学特征;(3)融合蛋白靶点和药物小分子的特征;(4)将融合后的特征作为分类器的输入,再结合训练集中的标签即可训练整个网络;三种不同类型的特征融合可极大程度地挖掘药物、蛋白质的潜在特征,便于更精确地进行DTI预测。该发明可同时提升DTI预测的速度与准确率,具备较高的实用价值。
技术领域
本申请涉及人工智能药物研发,具体涉及药物小分子-蛋白靶点相互作用领域。
背景技术
预测药物小分子-蛋白靶点相互作用(drug target interactions,DTIs)是研究药物治疗效果和绝大多数药物副作用的基础,在药物研发过程中起到了至关重要的作用。尽管部分实验已经验证了DTI(药物-靶点相互作用)是相对可靠的方式,但是药物小分子-蛋白靶点的组合空间过于庞大,通过实验一一验证将会耗费巨大的人力和计算资源。通常DTI预测方法可分为两类:基于物理的方法和基于机器学习的方法。其中基于物理的方法如分子对接,即利用预定的得分函数来评估原子水平上的DTI。然而该方法所得精度有限,难以评估构象熵与溶剂的贡献,而且基于原子层的方法对分子结构波动敏感。此外,基于相似性的DTI预测认为相似的药物可能共享相同的蛋白质靶点,相似的蛋白质可能与相同的药物相互作用。该方法依赖于如何度量药物分子和蛋白质序列的相似性,而相似性又取决于药物分子及蛋白质序列的特征表示。传统基于先验知识所得的特征表示对于预测DTI具有一定的局限性,而由数据驱动的、自动搜索所得的特征表示更有利于DTI预测。
近年来,基于机器学习的DTI方法发展迅速。药物分子所包含的原子较少,其化学药性可以很好地被神经网络捕捉;同时,蛋白质序列信息也能由自然语言处理中的LSTM等神经网络来刻画。于是,药物分子-蛋白靶点之间的相互作用可以通过构建不同的端对端的深度网络来预测。
DTI预测主要包含药物小分子和蛋白靶点的特征表示和相互作用两部分。通常情况下,药物分子可由SMILES(简化分子线性输入规范)进行表示,蛋白靶点可由一维的氨基酸序列进行表示,也可由三维的空间结构来表示。然而,由于一维的氨基酸序列信息有限,因此很难刻画蛋白质的空间结构特征;而三维的空间结构(如每个氨基酸的3D坐标)通常难以获得,且三维结构本身伴随着高维的稀疏运算,计算效率通常较低。为此,最新研究提出基于二维距离矩阵的蛋白质表示方法,矩阵中的每个元素表示对应的氨基酸之间的距离,这种蛋白质表示方法的好处在于:既弥补了一维的氨基酸序列信息不充分的问题,又解决了三维结构计算复杂度高的问题。尽管如此,在DTI预测的过程中,仍然存在以下难点:1)不同蛋白质的距离矩阵的大小不一致,由于矩阵中的每个元素表示的是一对氨基酸之间的距离,因此对不同的距离矩阵直接进行下采样放缩到相同的尺寸并不合理;2)不同药物分子的SMILES序列长度不一致,需要使用合适的模型来获得语义特征;3)用于DTI任务的训练数据集相对较小,因此设计合适的网络结构是非常关键的。
发明内容
发明目的:本发明提出了一种基于多维度信息的方法,通过对不同层级、不同维度信息的融合,最大程度地对分子和蛋白进行特征表达,从而提高药物小分子-蛋白靶点作用的预测准确率。
技术方案:一种基于多维度信息的药物小分子-蛋白靶点反应预测方法:(1)获取蛋白靶点的特征表示,包括氨基酸向量、蛋白质三维空间结构特征、蛋白质化学特征;(2)获取药物小分子的特征表示,包括药物分子的语义特征、BERT的通用网络特征、药物分子本身的化学特征;(3)融合蛋白靶点和药物小分子的特征;(4)将融合后的特征作为分类器的输入,再结合训练集中的标签即可训练整个网络。如图1所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于星药科技(北京)有限公司,未经星药科技(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011168551.0/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置





