[发明专利]一种基于图表示学习的关键蛋白质识别方法和装置在审
| 申请号: | 202210182217.3 | 申请日: | 2022-02-25 |
| 公开(公告)号: | CN114664377A | 公开(公告)日: | 2022-06-24 |
| 发明(设计)人: | 杨合;朱媛 | 申请(专利权)人: | 中国地质大学(武汉) |
| 主分类号: | G16B25/10 | 分类号: | G16B25/10;G06N3/04;G06N3/08 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 430000 湖*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 图表 学习 关键 蛋白质 识别 方法 装置 | ||
本发明提供了一种基于图表示学习的关键蛋白质识别方法和装置,方法包括:从数据库中筛选关键蛋白质作为标签,标记提取的蛋白质相互作用网络数据中的蛋白质节点,获得带节点标签的蛋白质相互作用网络;使用DeepWalk算法对蛋白质相互作用网络数据进行图表示学习,获得图表示矩阵数据;将带节点标签的蛋白质相互作用网络、从蛋白质节点的同源生物信息中提取的蛋白质节点属性特征以及图表示矩阵数据输入图卷积神经网络模型进行迭代训练;利用训练好的图卷积神经网络模型识别待测蛋白质网络中的关键蛋白质节点。本发明可以直接使用图类型数据进行训练,避免了现有方法中数据转换所需要的繁琐工作,进一步使得训练得到的结果更加准确。
技术领域
本发明涉及生物信息学技术领域,具体涉及一种基于图表示学习的关键蛋白质识别方法和装置。
背景技术
蛋白质是构成细胞和组织结构不可或缺的成分之一,参与生物体内的营养运输、信号识别与传递、免疫应答和生化反应等各种重要的生命活动。研究表明,生物体内的各种生命活动是通过蛋白质相互之间进行协作来完成的,且不同类型的蛋白质在生物体中扮演着不同的角色、具有不同的功能,因此蛋白质对生物体的重要程度也不尽相同。其中,那些缺失后会导致生物体发生病变甚至死亡的蛋白质被称为关键蛋白质(essentialprotein),其他的则被称为非关键蛋白质(non-essential protein)。现有的研究表明,关键蛋白质所表现出的重要性在很多方面都有体现:例如,在生物进化过程中,关键蛋白质相对于非关键蛋白质更加保守,不易发生变化;在生命活动中,关键蛋白质相对于非关键蛋白质参与了更多的生物进程。识别出关键蛋白质对于我们了解细胞的生命活动过程,研究生物进化的相关机制,以及根据致病基因或致病蛋白进行药物设计、药物标靶和疾病治疗有着重要的现实意义。
在生物学领域,识别关键蛋白质常用是基于生物医学实验的方法,例如,RNA干扰、条件性基因剔除和单基因敲除等。基于生物医学实验的方法虽然准确,但是成本高、效率低,还与实验人员的操作技术密切相关,这类方法无法应对大量的蛋白质数据。随着高通量技术和蛋白质组学的发展,大量的蛋白质相互作用数据库已经建立,这些数据库包括有:蛋白质相互作用数据库(Databae of Interaction Proteins,DIP)、Munich蛋白质序列信息中心(Munich Information Center for Protein Sequences,MIPS)、生物分子相互作用网络数据(Biomolecular Interaction Network Database,BIND)、交互数据的通用存储库(General Repository for Interaction Data,GRID)、检索相互作用基因的工具数据库(Search Tool for the Retrieval of Interacting Genes,STRING)、酵母蛋白数据库(Yeast Protein Database,YPD)、人类蛋白相互作用数据库(Human Protein InteractionDatabase,HPID),利用这些数据库中的各种生物信息数据,使得结合计算的方法来识别关键蛋白质成为一种可能。在关键蛋白质识别中,利用最多的蛋白质相互作用网络(protein-protein interaction network,PPIN),不过单一的PPIN含有大量的假阳性和假阴性数据,对关键蛋白质的识别精度有很严重的不利影响。
发明内容
本发明为了提高关键蛋白质识别的准确率,提供一种基于图表示学习的关键蛋白质识别方法和装置。
本发明提供的一种基于图表示学习的关键蛋白质识别方法,包括:
从数据库中筛选关键蛋白质作为标签,标记提取的蛋白质相互作用网络数据中的蛋白质节点,获得带节点标签的蛋白质相互作用网络;
使用DeepWalk算法对所述蛋白质相互作用网络数据进行图表示学习,获得图表示矩阵数据;
将所述带节点标签的蛋白质相互作用网络、从蛋白质节点的同源生物信息中提取的蛋白质节点属性特征以及所述图表示矩阵数据输入图卷积神经网络模型进行迭代训练;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210182217.3/2.html,转载请声明来源钻瓜专利网。





