[发明专利]微藻蛋白质特征序列标签匹配的快速检测方法及系统有效

专利信息
申请号: 201611162740.0 申请日: 2016-12-15
公开(公告)号: CN106709273B 公开(公告)日: 2019-06-18
发明(设计)人: 王帅;郑立;孙承君;韩笑天;高珂 申请(专利权)人: 国家海洋局第一海洋研究所
主分类号: G16B20/30 分类号: G16B20/30;G16B50/30
代理公司: 青岛海昊知识产权事务所有限公司 37201 代理人: 张中南;邱岳
地址: 266061 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于微藻蛋白质特征序列标签匹配的蛋白质快速检测方法及系统,包括采集微藻样品,获得其蛋白质序列集,转换成标准蛋白质序列集,并进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表,将键/值对列表进行汇总后做交集运算,当结果非空,则确定该数据集某条数据含有特征蛋白质序列。其系统主要包括检测数据输入模块、键/值对列表模块、检测识别模块、特征值交集运算模块、输出模块。本发明通过蛋白质序列检索以判断蛋白质的同源性和相似性程度,较传统逐条数据进行对比的方式,算法的鉴定准确率和效率有显著提高,大大提升了检索效率,不仅具有良好的实用性,而且算法的时间复杂度低,性能高,对于蛋白质组学的研究具有重要意义。
搜索关键词: 蛋白质序列 微藻 蛋白质特征 交集运算 快速检测 序列标签 算法 蛋白质 匹配 标准蛋白质 蛋白质组学 时间复杂度 相似性程度 给定序列 检测数据 检索效率 列表模块 配置处理 输出模块 输入模块 重要意义 数据集 同源性 序列集 转换 准确率 检索 采集 检测 研究
【主权项】:
1.微藻蛋白质特征序列标签匹配的快速检测方法,其特征在于包括以下步骤:步骤1:采集微藻样品,对样品进行RNA提取,样品纯度要求:OD值应在1.8至2.2之间;电泳检测28S:18S至少大于1.8,样品浓度:总RNA浓度不低于400ng/μg,用①Oligo(dT)富集mRNA,去除rRNA,将RNA随机打断,用随机引物和逆转录酶从RNA片段合成cDNA片段,cDNA片段末端修复,连接测序接头;②对于small RNA,进行3’和5’端接头连接,逆转录合成cDNA片段,最终将①和②的cDNA片段制备测序文库并进行测序,获得转录组测序的基因序列,之后翻译为蛋白质序列集;或者根据所采集微藻的种类同时从美国国家生物技术信息中心(NBCI)下载对应的蛋白质序列集,并与上述蛋白质序列集合并;步骤2:对步骤1得到的蛋白质序列集进行预处理,得到标准蛋白质序列集;所述蛋白质序列集中的蛋白质序列有几百万条,得到标准蛋白质序列之后,该标准蛋白质序列中的每一条可以由几个、几百个甚至更多氨基酸组成,每一个氨基酸以20个字母G、S、A、T、V、D、N、L、I、E、Q、Y、F、H、P、M、W、K、C、R中的其中一个来表示;步骤3:对该标准蛋白质序列集进行拆分配置处理,将其转换为对于一个给定序列片段的键/值对列表;(1)选择需要进行匹配检测的蛋白质Pr,该Pr作为目标蛋白质;(2)确定(1)中Pr的氨基酸序列特征值,该特征值由多个氨基酸组构成,每个氨基酸组中有多个氨基酸;以i表示组数,将特征值的每组氨基酸记为PCF1、PCF2...PCFi;(3)根据特征值将步骤2的标准蛋白质特征序列集进行排列:排列后的数据记作以下形式:<PCF1,PLT1>;.......<>......<PCF1,PLTj>.......<PCFi,PLT1>;.......<>......<PCFi,PLTj>其中,PCF1‑PCFi表示(2)中的特征值,i表示组数,PLT1‑PLTj表示步骤2的蛋白质序列集中的每一条蛋白质序列数据,j表示步骤2中标准蛋白质序列集所含蛋白质序列数据的数量;从而得到一个对列表;(4)检测(3)中对列表的每一行PLT1‑PLTj是否含有该行之前所标注的PCFk,k属于1‑i,将该行包含有PCFk的那些PLT1‑PLTj中的元素检测出来,记作<PCF1,PL1‑1>;.......<>......<PCF1,PL1‑j>.......<PCFi,PL i‑1>;.......<>......<PCFi,PLi‑j>并将记作上述格式的数据作为键/值对列表,其中,PL1‑1至PL1‑j表示第一行PLT1‑PLTj中含有PCF1的标准蛋白质序列,PL1‑1表示PLT1‑PLTj中第一个含有该PCF1的标准蛋白质序列,PL1‑j表示PLT1‑PLTj中最后一个含有该PCF1的标准蛋白质序列;PLi‑1至PLi‑j表示第i行PLT1‑PLTj中含有PCFi的标准蛋白质序列,PLi‑1表示PLT1‑PLTj中第一个含有该PCFi的标准蛋白质序列,PLi‑j表示PLT1‑PLTj中最后一个含有该PCFi的标准蛋白质序列;步骤4:对上述键/值对列表,进行汇总;接受上一步骤生成的键/值对列表,合并含有相同特征值的蛋白质序列,得到了分别包含第1至第i个蛋白质特征值的蛋白质序列,记作<PCF1,PL[1‑1....1‑j]>...<PCFi,PL[i‑1....i‑j]>其中,<PCF1,PL[1‑1....1‑j]>=<PCF1,PL1‑1,....PL 1‑j>...<PCFi,PL[i‑1....i‑j]>=<PCF1,PLi‑1,....PL i‑j>并将记作上述格式的数据作为减化后的键/值对列表;步骤5:对上一步得到的减化后的键/值对列表进行交集运算,以得出步骤1 的蛋白质序列集中是否含有步骤3中指定的目标蛋白质;[PCF1,...,PCFi]=PL[1‑1...1‑j]∩...∩PL[i‑1...i‑j],即以交集PL[1‑1...1‑j]∩...∩PL[i‑1...i‑j]表示上述PL[1‑1...1‑j]—PL[i‑1...i‑j]中,同时含有PCF1‑PCFi的那些蛋白质序列;当结果非空,则确定该数据集某条数据含有特征蛋白质序列。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家海洋局第一海洋研究所,未经国家海洋局第一海洋研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611162740.0/,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top