[发明专利]一种人类蛋白质亚细胞位置预测方法在审
申请号: | 201710204499.1 | 申请日: | 2017-03-31 |
公开(公告)号: | CN106778070A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 沈红斌;周航 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06F19/18 | 分类号: | G06F19/18;G06F19/24 |
代理公司: | 上海伯瑞杰知识产权代理有限公司31227 | 代理人: | 孟旭彤 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 人类 蛋白质 细胞 位置 预测 方法 | ||
技术领域
本发明属于生物信息技术领域,特别涉及一种人类蛋白质亚细胞位置预测的方法。
背景技术
了解蛋白质的亚细胞位置对于理解蛋白质的功能、蛋白质间的相互作用,以及药物的靶向治疗具有重要的意义。然而目前利用实验检验的方法来获取蛋白质的亚细胞位置需要很大的时间和成本。因此利用蛋白质亚细胞位置预测工具来对大量的蛋白质进行预测具有重要意义。根据我们的统计,在2016年二月份发布的SWISS-PROT蛋白质数据库上一共有550552条蛋白质,其中只有10.4%的蛋白质具有实验验证的亚细胞位置,剩下的未知亚细胞位置的蛋白质急需通过一种可靠的预测方法来预测。
到目前为止,已经有很多能够预测蛋白质亚细胞位置的工具,常见的网络服务器包括BaCeLlo,YLoc,MultiLoc,GOASVM,WoLF PSORT,CellPLoc,HSLPred等等。这些预测工具给相关领域的生物学家带来了极大的便利。
蛋白质的亚细胞位置信息经常被用在疾病的基因治疗,药物靶向治疗上。例如通过检查在肿瘤中蛋白质YAP的表达和亚细胞定位来研究Hippo/YAP途径在小儿肝细胞癌演变中的作用。所以,一个易于使用的高精度预测工具将非常有助于这些实验室进行临床研究。我们以前发布的网络服务器Hum-mPLoc2.0是专门为预测人类蛋白质定位而设计的。每年使用的次数已从2010年的2万次增加到2015年的8万多次。这表明为了提供更好的预测服务,基于新技术和更全面精准的注释数据库来进一步增强预测能力具有重要意义。
通常,用于预测蛋白质亚细胞定位的计算方法可以分为两类,即基于同源性搜索的方法和基于机器学习的方法。基于同源性搜索的方法可以被认为是利用最近邻方法来进行预测,在该方法中两个蛋白质之间的距离通常通过它们的序列同源性来衡量。通过计算查询蛋白质与大量已有亚细胞位置注释信息的序列的同源性,该方法找到前K个最相似的蛋白质,并将它们的注释信息传递给所要预测的蛋白质作为分类结果。基于同源性搜索的方法是一种比较直接的预测方法,但是它的性能显著取决于是否能够找到相似度高已有亚细胞位置信息注释的同源序列,此外,有些时候两个蛋白质序列之间的相似度高但是他们可具有非常不同的结构或功能,这会导致该方法的失效。
基于机器学习的预测器是蛋白质亚细胞位置预测中的一类较为灵活模型。它们需要所谓的训练数据集,然后通过基于统计学习的算法来学习分类规则。因此,训练数据的质量与所学习的统计规则的质量密切相关。受益于蛋白质数据库中关于亚细胞位置信息越来越多并且越来越可靠的注释,我们可以通过收集大规模训练数据以便于更充分地训练分类模型。在机器学习模型中的另一个重要问题是如何编码蛋白质序列,因为大多数算法需要提取特征向量作为输入,如何从原始蛋白质序列以及相关联的现有知识中提取特征对于分类器的最终性能是至关重要的。用于预测亚细胞位置的现有机器学习工具使用各种特征如下:
(1)基于残基的统计特征,伪氨基酸组成和位置特异性评分矩阵。
(2)基于信号肽,功能域的特征。
(3)基于数据库注释的特征,例如基因本体论(GO)特征。
由于GO特征是对领域知识的高级抽象,当拥有足够的注释时,它们通常比基于序列所提取的特征具有更高的准确性。然而,大量的注释数据带来新的算法挑战。例如,通过对每个GO特征使用伯努利事件模型,即对于该GO特征是否存在进行二进制编码,常常导致极高维的特征空间。随着GO数据库的定期扩展和更新,维度将随着我们关于蛋白质的知识拓展而不断增加。高维特征向量增加了机器学习过程的复杂性,并且我们还考虑到注释数据库中的潜在噪声的影响。虽然整个GO数据库是巨大的,但每个蛋白质实际上只包含几个GO特征。根据我们的统计,在SWISS-PROT数据库中那些至少具有一个GO特征的蛋白质,他们平均拥有6个GO注释。也就是说一个蛋白质的GO特征是一个稀疏特征向量,它有数千个维度,但只有大约6个GO注释。目前领域内已经针对这个问题提出了不同的方法来处理。例如,YLoc仅选择对于特定亚细胞位置具有明显相关性的GO注释和PROSITE模式。因此,它减少了不必要的特征,并使得结果更易于理解,但是这样也会导致信息丢失。WegoLoc为每个GO特征分配权重来突出有用的GO特征。
发明内容
本发明提供一种人类蛋白质亚细胞位置预测方法,目的在于通过利用注释特征之间潜在相关性信息来提高人类蛋白质亚细胞分类器的预测精度。
一种人类蛋白质亚细胞位置预测方法,基于人类蛋白质序列预测蛋白质亚细胞位置,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710204499.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用