[发明专利]一种蛋白质鉴定的大规模分布式并行加速方法及其系统有效
申请号: | 201010292032.5 | 申请日: | 2010-09-26 |
公开(公告)号: | CN102411680A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 王乐珩;王文平;迟浩;吴妍洁;周郴;付岩;孙瑞祥;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国;梁挥 |
地址: | 100080 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 蛋白质 鉴定 大规模 分布式 并行 加速 方法 及其 系统 | ||
技术领域
本发明涉及一种规模化蛋白质鉴定的分布式并行加速方法,特别是涉及一种采用分布式并行技术以在多个计算节点上,有效分担搜索任务从而提高蛋白质鉴定速度的方法及其系统。
背景技术
“蛋白质组”(Proteome)描绘了特定生物样品中在给定时刻和给定条件下表达的蛋白质的全体。顾名思义,蛋白质组学就是对蛋白质组的研究,其最基本的任务就是确定出哪些蛋白质在生物体内得到了表达、表达量是多少、翻译后修饰以及蛋白与蛋白相互作用等,由此获得蛋白质水平上关于疾病发生、细胞代谢等过程的整体而全面的认识。在当前的蛋白质组研究中,基于串联质谱的蛋白质鉴定是最广泛使用的技术之一,参考文献1《Aebersold,R.and Mann,M.Mass spectrometry-based proteomics,Nature,2003,422:198-207》中对相关的内容有较为详细的说明。
基于串联质谱鉴定蛋白质的基本步骤是:首先将混合蛋白样品酶切为肽,经过液相色谱分离后,进入质谱仪,得到肽的实验串联质谱图,然后对质谱图进行分析,得到对应的肽序列,最后通过肽到蛋白质归并分析,得到混合蛋白样品中的蛋白质列表,从而达到对蛋白质进行鉴定的目的。在鉴定产生实验串联质谱的肽序列的过程中,数据库搜索的方法被广泛采用。如在参考文献2《Eng,J.K.,McCormack,A.L.and Yates,J.R.An approach to correlate tandemmass spectral data of peptides with amino acid sequences in a protein database.JAm Soc Mass Spectrom,1994,5:976-989》、参考文献3《Perkins,D.N.,Pappin,D.J.,Creasy,D.M.and Cottrell,J.S.Probability-based protein identification by searchingsequence databases using mass spectrometry data.Electrophoresis,1999,20:3551-3567》以及参考文献4《Field,H.I.,,D.and Beavis,R.C.RADARS,a bioinformatics solution that automates proteome mass spectral analysis,optimisesprotein identification,and archives data in a relational database.Proteomics,2002,2:36-47》中都对采用数据库搜索的方法实现肽序列的鉴定做了详细说明。
采用数据库搜索的方法通过肽序列鉴定实现蛋白质鉴定的方法主要包括以下步骤:首先,模拟生物学中的酶切规则将蛋白质数据库中的蛋白质序列切分成肽序列;然后计算切分得到的各个肽序列的质量;最后利用质谱数据中的母离子质量误差窗口寻找符合一定质量范围内的肽序列,将符合要求的肽序列输入给打分函数以实现对肽序列的鉴定。
由于近年来随着蛋白质数据库的规模不断增长,对非特异性酶切肽的鉴定需求不断增加,导致肽序列的规模不断增大,同时,质谱数据的生成速度也在不断增长,因此对蛋白质的鉴定速度提出了更高的要求。但前述的蛋白质鉴定方法在效率上却有不足,因此需要对上述的数据库搜索方法进行加速。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010292032.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具发光功能的化妆品盒
- 下一篇:一种应用甘草提升烟梗品质的方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用