[发明专利]微藻蛋白质特征序列标签匹配的快速检测方法及系统有效
申请号: | 201611162740.0 | 申请日: | 2016-12-15 |
公开(公告)号: | CN106709273B | 公开(公告)日: | 2019-06-18 |
发明(设计)人: | 王帅;郑立;孙承君;韩笑天;高珂 | 申请(专利权)人: | 国家海洋局第一海洋研究所 |
主分类号: | G16B20/30 | 分类号: | G16B20/30;G16B50/30 |
代理公司: | 青岛海昊知识产权事务所有限公司 37201 | 代理人: | 张中南;邱岳 |
地址: | 266061 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统,包括采集微藻样品,获得其蛋白质序列集,转换成标准蛋白质序列集,并进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表,将键/值对列表进行汇总后做交集运算,当结果非空,则确定该数据集某条数据含有特征蛋白质序列。其系统主要包括检测数据输入模块、键/值对列表模块、检测识别模块、特征值交集运算模块、输出模块。本发明通过蛋白质序列检索以判断蛋白质的同源性和相似性程度,较传统逐条数据进行对比的方式,算法的鉴定准确率和效率有显著提高,大大提升了检索效率,不仅具有良好的实用性,而且算法的时间复杂度低,性能高,对于蛋白质组学的研究具有重要意义。 | ||
搜索关键词: | 蛋白质序列 微藻 蛋白质特征 交集运算 快速检测 序列标签 算法 蛋白质 匹配 标准蛋白质 蛋白质组学 时间复杂度 相似性程度 给定序列 检测数据 检索效率 列表模块 配置处理 输出模块 输入模块 重要意义 数据集 同源性 序列集 转换 准确率 检索 采集 检测 研究 | ||
【主权项】:
1.微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于包括以下步骤:步骤1:采集微藻样品,对样品进行RNA提取,样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8,样品浓度:总RNA浓度不低于400ng/μg,用①Oligo(dT)富集mRNA,去除rRNA,将RNA随机打断,用随机引物和逆转录酶从RNA片段合成cDNA片段,cDNA片段末端修复,连接测序接头;②对于small RNA,进行3’和5’端接头连接,逆转录合成cDNA片段,最终将①和②的cDNA片段制备测序文库并进行测序,获得转录组测序的基因序列,之后翻译为蛋白质序列集;或者根据所采集微藻的种类同时从美国国家生物技术信息中心(NBCI)下载对应的蛋白质序列集,并与上述蛋白质序列集合并;步骤2:对步骤1得到的蛋白质序列集进行预处理,得到标准蛋白质序列集;所述蛋白质序列集中的蛋白质序列有几百万条,得到标准蛋白质序列之后,该标准蛋白质序列中的每一条可以由几个、几百个甚至更多氨基酸组成,每一个氨基酸以20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个来表示;步骤3:对该标准蛋白质序列集进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表;(1)选择需要进行匹配检测的蛋白质Pr,该Pr作为目标蛋白质;(2)确定(1)中Pr的氨基酸序列特征值,该特征值由多个氨基酸组构成,每个氨基酸组中有多个氨基酸;以i表示组数,将特征值的每组氨基酸记为PCF1、PCF2...PCFi;(3)根据特征值将步骤2的标准蛋白质特征序列集进行排列:排列后的数据记作以下形式:<PCF1,PLT1>;.......<>......<PCF1,PLTj>.......<PCFi,PLT1>;.......<>......<PCFi,PLTj>其中,PCF1‑PCFi表示(2)中的特征值,i表示组数,PLT1‑PLTj表示步骤2的蛋白质序列集中的每一条蛋白质序列数据,j表示步骤2中标准蛋白质序列集所含蛋白质序列数据的数量;从而得到一个对列表;(4)检测(3)中对列表的每一行PLT1‑PLTj是否含有该行之前所标注的PCFk,k属于1‑i,将该行包含有PCFk的那些PLT1‑PLTj中的元素检测出来,记作<PCF1,PL1‑1>;.......<>......<PCF1,PL1‑j>.......<PCFi,PL i‑1>;.......<>......<PCFi,PLi‑j>并将记作上述格式的数据作为键/值对列表,其中,PL1‑1至PL1‑j表示第一行PLT1‑PLTj中含有PCF1的标准蛋白质序列,PL1‑1表示PLT1‑PLTj中第一个含有该PCF1的标准蛋白质序列,PL1‑j表示PLT1‑PLTj中最后一个含有该PCF1的标准蛋白质序列;PLi‑1至PLi‑j表示第i行PLT1‑PLTj中含有PCFi的标准蛋白质序列,PLi‑1表示PLT1‑PLTj中第一个含有该PCFi的标准蛋白质序列,PLi‑j表示PLT1‑PLTj中最后一个含有该PCFi的标准蛋白质序列;步骤4:对上述键/值对列表,进行汇总;接受上一步骤生成的键/值对列表,合并含有相同特征值的蛋白质序列,得到了分别包含第1至第i个蛋白质特征值的蛋白质序列,记作<PCF1,PL[1‑1....1‑j]>...<PCFi,PL[i‑1....i‑j]>其中,<PCF1,PL[1‑1....1‑j]>=<PCF1,PL1‑1,....PL 1‑j>...<PCFi,PL[i‑1....i‑j]>=<PCF1,PLi‑1,....PL i‑j>并将记作上述格式的数据作为减化后的键/值对列表;步骤5:对上一步得到的减化后的键/值对列表进行交集运算,以得出步骤1 的蛋白质序列集中是否含有步骤3中指定的目标蛋白质;[PCF1,...,PCFi]=PL[1‑1...1‑j]∩...∩PL[i‑1...i‑j],即以交集PL[1‑1...1‑j]∩...∩PL[i‑1...i‑j]表示上述PL[1‑1...1‑j]—PL[i‑1...i‑j]中,同时含有PCF1‑PCFi的那些蛋白质序列;当结果非空,则确定该数据集某条数据含有特征蛋白质序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家海洋局第一海洋研究所,未经国家海洋局第一海洋研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611162740.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种长焦镜头
- 下一篇:一种电池焊接、整形设备