[发明专利]处理蛋白质肽数据的方法和系统无效
申请号: | 200810097019.7 | 申请日: | 2008-05-08 |
公开(公告)号: | CN101303713A | 公开(公告)日: | 2008-11-12 |
发明(设计)人: | 尼古劳斯·贝恩泰尼斯;克里斯蒂安·米斯;贝恩德·穆勒 | 申请(专利权)人: | F·霍夫曼-拉·罗奇股份有限公司 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 北京集佳知识产权代理有限公司 | 代理人: | 刘晓东;顾晋伟 |
地址: | 瑞士*** | 国省代码: | 瑞士;CH |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 蛋白质 数据 方法 系统 | ||
本发明涉及蛋白质鉴定并提供一种用于处理蛋白质肽数据的方 法和系统,所述蛋白质肽数据优选获自健康样本或病理样本,例如 组织样本。
存在鉴定复杂混合物中的蛋白质以及检测相关表达谱中的差异 的需求。当已经鉴定足够数量的给定蛋白质的肽时,就认为该给定 蛋白质存在于样品中。使用MSMS(串联质谱)用于快速和并行鉴 定大量的肽是本领域公知的。首先,利用质谱仪生成裂解谱图,即 肽谱,并在所生成的肽谱基础上鉴定肽序列。简言之,该过程基本 按以下步骤进行。在进行降低样本复杂度的分离(例如利用液相色 谱)之后,用合适的酶(如胰蛋白酶)消化产生待检测的肽。然后 利用质谱仪进行基于质量的选择,并且在质谱仪的第二室中进行碰 撞诱导解离,从而发生裂解。由于与质谱仪第二室中的惰性气体相 碰撞,导致肽裂成碎片,并且获得质量为从0直到完整肽质量的多 个片段。然后,为了鉴定,将裂解谱图与序列相关联。因此,可以 从谱图中读出序列(或其部分)。最后,有必要进行数据库检索, 利用试验谱图进行谱图比较,直至找到最佳匹配。也就是说,将肽 的裂解谱图与候选肽的理论生成的谱图进行比较。由于该比较产生 大量的数据,所以数据的后处理非常耗时。这提前限制了试验的程 度。由于不存在处理巨量生成数据的实际解决方案,所以对不同试 验的结果进行比较或操作所产生的数据进行后处理变得非常困难 和耗时。
因此,本发明的一个目的是提供一种改善和加快肽的后处理、 即将所鉴定的肽分配到蛋白质和蛋白质分组中的方法和系统。该目 的通过所附权利要求的特征而实现。
本发明的第一方面涉及一种处理从供分析的健康样本或病理样 本获得的蛋白质肽数据的方法,该方法包括以下步骤:(a)提供代 表输入数据集的肽序列列表和相关辅助信息;(b)通过除去肽序列 列表中的肽序列冗余而从输入数据集编辑新的肽序列列表,所述新 的肽序列列表代表肽数据集;和(c)将源自同一蛋白质的肽数据 集的成员分组在一起,由此生成蛋白质数据集。
所述辅助信息优选包括以下至少一种:相应的度量值、源蛋白 质、肽的物理化学性质、肽在蛋白质序列中的偏移。
在步骤(b)中,在新的肽序列列表中优选用单一项来代表肽 冗余。优选通过考虑全部冗余肽序列的相应值来计算该单一项的肽 度量值。
步骤(c)优选包括基于其每个肽的测量值来计算每种蛋白质的 总蛋白质度量。
所述输入数据集、蛋白质数据集和肽数据集优选存储在关系型 数据库中。每个肽序列例如映射至一个唯一编号,并且一种蛋白质 的肽的唯一编号之总和为每种蛋白质提供唯一识别编号。优选基于 这些唯一识别编号来分组。
根据一个优选实施方案,使至少一些数据集直观化。
第一方面的方法优选还包括步骤(d):确定蛋白质数据集内共 有相同肽的蛋白质并将其分组,由此形成蛋白质分组的数据集;并 由此检测该蛋白质集中的冗余。
根据本发明,提供并处理两个数据集,一个对应于健康组织, 一个对应于病理组织,以便在病理组织中找出不能在健康组织中找 到的那些部分。因此,本发明提供在病理组织内存在而在健康组织 内不存在或者在健康组织内存在而在病理组织内不存在的蛋白质 的列表。
本发明的第二方面涉及一种方法,其包括以下步骤:(a)提供 与健康或病理组织相关的至少两个肽数据集或蛋白质数据集;(b) 合并所述肽数据集或蛋白质数据集以生成复合数据集;和(c)输 出所述复合数据集。
根据第二方面的方法,优选将健康组织的肽数据集或蛋白质数 据集与健康组织的其它肽数据集或蛋白质数据集合并。作为替代方 案,将病理组织的肽数据集或蛋白质数据集与病理组织的其它肽数 据集或蛋白质数据集合并。作为进一步的替代方案,将健康组织的 肽数据集或蛋白质数据集与病理组织的肽数据集或蛋白质数据集 合并。
优选根据布尔运算(Boolean operation)规则及其组合来实施 步骤(b)中的合并。优选地,在合并步骤中,计算每个成员蛋白 质或成员肽的各种度量以包括来自每个原始数据集的贡献。
根据一个优选的选择方案,第二方面的方法还包括将第一复合 数据集与至少一个其它复合数据集合并以生成更高等级的复合数 据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于F·霍夫曼-拉·罗奇股份有限公司,未经F·霍夫曼-拉·罗奇股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810097019.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电路板安装型电连接器
- 下一篇:用于使高比重卤水增稠的组合物以及方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置