[发明专利]一种基于A星算法的蛋白质序列标签测序方法在审
申请号: | 202310035764.3 | 申请日: | 2023-01-10 |
公开(公告)号: | CN116486907A | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 李闯;刘纯洋;何典;祝团飞;南苏琴 | 申请(专利权)人: | 湖南工商大学 |
主分类号: | G16B25/10 | 分类号: | G16B25/10;G16B50/30 |
代理公司: | 北京新科华领知识产权代理事务所(普通合伙) 16115 | 代理人: | 王丽 |
地址: | 410205*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 蛋白质 序列 标签 方法 | ||
本发明公开了一种基于A星算法的蛋白质序列标签测序方法,包括:获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预处理;构建谱峰连接图;生成候选序列标签;找出符合母离子质量的候选肽段;从数据库中搜索序列标签并进行匹配打分排序。采用本方法有利于提高从头测序生成候选肽段的速度,生成多个碎裂标签能提高准确率,促进蛋白质序列鉴定的发展,为大数据时代下的大规模蛋白质鉴定识别奠定了基础。
技术领域
本发明涉及生物信息技术领域,特别是涉及一种基于A星算法的蛋白质序列标签测序方法。
背景技术
基于串联质谱技术的蛋白质组学已经成为生命科学领域的重要技术。在蛋白质组的生物信息学研究中,质谱数据处理是十分重要的研究内容,其任务是从带有复杂噪声或者部分信息确实的数据中推断样品的蛋白质组成。利用质谱数据进行蛋白质鉴定的过程中常用的两种分析方法是数据库搜索和从头测序。然而数据库搜索方法主要通过匹配实际质谱和数据库中蛋白质序列的理论裂解谱图给出候选肽段,对蛋白质序列数据库有依懒性。从头测序不受蛋白质序列数据库中所包含的错误信息的影响,能够在蛋白质序列数据库信息不完全的情况下对串联质谱数据进行分析,但是对串联质谱的数据质量要求非常高。当肽段碎裂不完全或背景噪音覆盖正确的离子峰时,往往鉴定出来的准确率较低。基于肽序列标签的数据库搜索鉴定方法,是结合从头测序方法和数据库搜索算法的优点,通过从头测序方法预测理论谱图,再利用数据库搜索算法搜索到匹配程度较大的肽段。但是目前的肽序列标签的生成往往是固定了肽段长度和数量,导致肽段的选择尤为重要,同时需要添加一个选择肽段的打分,使得往往复杂了整个过程。
发明内容
本发明提供一种基于A星算法的蛋白质序列标签测序方法,用以解决上述的问题。
本发明提供一种基于A星算法的蛋白质序列标签测序方法,包括:
获取待测蛋白质的原始质谱数据,对所述原始质谱数据进行预处理;
基于预处理后的原始质谱数据,构建谱峰连接图;
基于所述谱峰连接图,生成候选序列标签;
基于所述候选序列标签,找出符合母离子质量的候选肽段;
从数据库中搜索序列标签并进行匹配打分排序。
可选地,所述预处理包括:基于原始质谱数据生成二级质谱图,对二级质谱图进行去除同位素、去除噪声、峰强度归一化、去除固定离子和内部离子。
可选地,构建谱峰连接图包括:
基于预处理后的二级质谱图,确定光谱图中的顶点;
合并所述顶点;
如果任意两个顶点的质荷比等于误差范围内一个或多个氨基酸残基质量的总和时,则两个顶点之间连接一条边,根据谱峰及其质量之间的关系,得到了一张谱峰连接图;
基于所述谱峰连接图计算路径评分。
可选地,基于所述谱峰连接图计算路径评分包括:
a)获取谱峰连接图Gp(vi,eij),创建Open表与Close表并初始化为空,创建存放顶点的邻近节点表E并初始化为空;
b)将起点v1加入Open表中;
c)如果Open表不为空,则从Open表中选取分数A最大的顶点为当前顶点vi;如果Open表为空,则进入步骤d;
d)判断顶点vi是否为终点vn,如果顶点vi不是终点,则将顶点vi从Open表中删除并加入Close集中,再进行步骤e;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工商大学,未经湖南工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310035764.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:车辆控制系统
- 下一篇:具有增材制造的热交换器的主动冷却的超声探头