[发明专利]开放式蛋白质鉴定的数据库搜索方法及其系统有效
申请号: | 201210451907.0 | 申请日: | 2012-11-12 |
公开(公告)号: | CN103810200A | 公开(公告)日: | 2014-05-21 |
发明(设计)人: | 迟浩;孙瑞祥;王乐珩;张文力;贺思敏 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 梁挥;祁建国 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 开放式 蛋白质 鉴定 数据库 搜索 方法 及其 系统 | ||
技术领域
本发明涉及生物信息领域,特别是涉及一种开放式蛋白质鉴定的数据库搜索方法及其系统。
背景技术
蛋白质组学研究是指在大规模水平上研究蛋白质的特征,包括蛋白质的表达水平、翻译后修饰研究以及蛋白质之间的互相作用等等。作为该领域的关键技术,生物质谱技术近年来发展十分迅速。利用质谱数据进行蛋白质的定性、定量分析,成为蛋白质组学研究的核心内容之一。其中,数据库搜索方法是蛋白质组学中质谱数据解析的主要方法。
蛋白质组数据的形成过程比较复杂。蛋白质受到生物酶的作用分解,形成的许多子片段叫做肽或肽段。为了让质谱仪检测到,就要通过酶切的方式,将比较长的蛋白质水解为较短的序列(肽)。根据酶的不同,酶切分为特异性酶切、半特异酶切和非特异酶切。此外,大多数蛋白质在翻译形成后,会在蛋白质中的某些氨基酸上增加某种功能团,或增加了其他的蛋白质或肽,或改变了氨基酸的化学性质或结构,这一过程被称为发生了化学修饰。不同的修饰可以发生在肽段或蛋白质的N末端(肽段合成的起始端,通常为字面上的左端)或C末端(肽段合成的终止端,通常为字面上的右端),或某些特定的氨基酸上。修饰可以改变氨基酸的化学性质,引起蛋白质结构的改变,扩充蛋白质的功能。很多蛋白质的重要生物活性都是在发生修饰之后才具有的。通常人们在使用数据库搜索软件时,会指定特异性酶切或半特异性酶切,以及几种常见的修饰类型进行蛋白质检索,这种搜索方式叫做限定式搜索。与之对应的非限定式搜索,或者说开放式搜索方式,则是在搜索过程中允许任意酶切和修饰类型。
目前的蛋白质鉴定软件运行速度大多较慢。在数据规模日趋增大的形势下,这一缺点体现得尤为明显。目前的质谱仪每秒钟可以产生10~20张质谱图,而蛋白质鉴定软件常规情况下每秒钟只能处理不到10张。如果考虑到翻译后修饰、酶切特异性等因素影响,那么搜索速度将会进一步大幅降低。例如,对于非特异性酶切方式,由于其巨大的时间和空间开销,当前的实际蛋白质鉴定中都会选择尽量避开这种鉴定;此外,目前的修饰数据库中约有1,000多种修饰,而目前的数据库搜索引擎大多无法同时支持如此多的修饰类型,更无法有效支持任意酶切与修饰类型的肽段的搜索。鉴定速度不高直接影响到对质谱数据的全面、细致分析。在目前的蛋白质组实验中,质谱仪产生的大部分质谱图不能有效解析,质谱图解析率只有10%到30%,一个重要原因就是肽序列的各种酶切方式均有可能存在,同时蛋白质中存在未知或未预料到的修饰,因而搜索引擎无法找到正确的候选肽,影响了后续的鉴定过程。因此,实现有效的开放式搜索方法,对蛋白质鉴定的速度和精度均有重要的意义。通过本发明提供的数据库搜索方法,可以使质谱图解析率达到60%-80%,大大超过现有水平。
发明内容
本发明的目的在于提供一种开放式蛋白质鉴定数据库搜索方法及其系统,用于允许用户不指定酶切和修饰的类型,或指定其中的任意类型进行蛋白质鉴定,用于解决任意类型的酶切和修饰的鉴定问题。
为了实现上述目的,本发明提供一种开放式蛋白质鉴定的数据库搜索方法,其特征在于,包括:
步骤1,输入蛋白质序列,模拟切分每一条蛋白质序列,并将所有生成的子序列按照质量排序,生成肽序列数据表,并根据该肽序列数据表建立索引文件;
步骤2,输入质谱图,对每张质谱图,提取谱峰生成查询集合,查询所述索引文件,得到序列集合;
步骤3,对每张质谱图及其对应的序列集合,根据修饰组合,生成候选肽段并打分;
步骤4,对打分结果进行整合,并进行肽段到蛋白质的推断,得到鉴定结果。
所述的方法,其中,所述步骤1中,包括:
步骤11,读取蛋白质数据库文件,获取蛋白质序列及名称;
步骤12,遍历蛋白质序列,按照非特异性酶切的方式模拟切分每条蛋白质序列为多个子序列;
步骤13,对每个质量值设定一个计数器并初始化为0,该计数器统计每个质量值对应的子序列数目;对每条子序列质量值对应的计数器加1;开辟一数组以存储所有的子序列;以及
步骤14,按照非特异性酶切的方式遍历蛋白质序列,将生成的每条子序列存储到数组中,以使数组中的所有元素按照质量升序排列,生成索引文件。
所述的方法,其中,所述步骤11中,包括:
当蛋白质数据库文件大于设置的单批次处理规模上限时,将该蛋白质数据库文件按照该单批次处理规模上限划分成多个子块,每一个子块对全部质谱图完成索引文件获取和查询,然后处理下一个子块,直到所有子块处理完毕。
所述的方法,其中,所述步骤2中,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210451907.0/2.html,转载请声明来源钻瓜专利网。