[发明专利]一种基因序列数据的筛选方法无效

专利信息
申请号: 201110400122.6 申请日: 2011-12-05
公开(公告)号: CN102521528A 公开(公告)日: 2012-06-27
发明(设计)人: 黎建辉;孟珍;周园春 申请(专利权)人: 中国科学院计算机网络信息中心
主分类号: G06F19/22 分类号: G06F19/22
代理公司: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 李稚婷
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基因 序列 数据 筛选 方法
【说明书】:

技术领域

发明属于应用生物信息学技术领域,尤其涉及一种基因序列数据筛选方法,主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的基因数据筛选和质量控制。

背景技术

生物分子系统发育研究在不同水平和层次上依赖于对数据的使用:从简单的检索到PCR污染物的检查,到寻找一个给定序列的类群同源性序列,到更全面的基于大量数据进行的类群和位点的数据挖掘(McMahon,M.M.,and M.J.Sanderson.2006.”Phylogeneticsupermatrix analysis of GenBank sequences from 2228papilionoid legumes”.Syst.Biol.55:818-836;Ciccarelli,F.D.,T.Doerks,C.von Mering,C.J.Creevey,B.Snel,and P.Bork.2006.”Toward automatic reconstruction of a highly resolved tree of life.Science 311:1283-1287;Bininda-Emonds,O.R.P.,M.Cardillo,K.E.Jones,R.D.E.MacPhee,R.M.D.Beck,R.Grenyer, S.A.Price,R.A.Vos,J.L.Gittleman,and A.Purvis.2007.”The delayed rise ofpresent-day mammals”.Nature 446:507-512;Li,C.H.,G.Orti,G.Zhang,and G.Q.Lu.2007.”Apractical approach to phylogenomics:The phylogeny of ray-finned fish(Actinopterygii)as a casestudy”.BMC Evol.Biol.7:44;MICHAEL J.SANDERSON,1 DARREN BOSS,et al.2008.“ThePhyLoTA Browser:Processing GenBank for Molecular Phylogenetics Research”,Syst.Biol.57(3):335-346.)。

分子生物学的早期研究积累了大量的基因序列数据。以国际核算序列数据库联盟(International Nucleotide Sequence Database Collaboration,INSDC)成员之一的GenBank为例(Michael Y.Galperin.2011.“The Molecular Biology Database Collection:2011updae”.Nucl.Acids Res.35:D3-D4),截至2010年9月统计的数字,传统的GenBank版本中在720,000,000条序列纪录中有75,000,000,000碱基对数据;在WGS版本中有92,369,977,826碱基对的海量数据。

与生物分子系统发育学相关的最重要的注释是类群的名称和基因或序列区域的名称的注释,但在其发布的数据中呈现明显的问题,同时,其中还存在注释错误或模糊、一条数据重复提交的问题(Vilgalys,R.2003.“Taxonomic misidentification in public DNA databases”.New Phytol.160:4-5;McMahon,M.M.,and M.J.Sanderson.2006.“Phylogenetic supermatrixanalysis of GenBank sequences from 2228papilionoid legumes”.Syst.Biol.55:818-836.)。

即使从INSDC拿到的序列,不存在注释错误的问题,但是其测序的质量却不一定符合相关系统发育学研究的需要。如在BARCODE Data Standards v.2.3(26March 2009)中就建议:做为潜在物种条形码的序列是在测序中双向覆盖无N碱基且序列谱图文件的PHRED scores不能低于40%。

所以,需要提供一种方法对现有基因序列数据进行筛选,摈弃注释错误或模糊、测序精度参差的不符合后续挖掘要求的数据。随后,当在已测公开数据中没有找到符合条件的基因序列数据时进行补充测序。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110400122.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top