[发明专利]一种基因序列数据的筛选方法无效
申请号: | 201110400122.6 | 申请日: | 2011-12-05 |
公开(公告)号: | CN102521528A | 公开(公告)日: | 2012-06-27 |
发明(设计)人: | 黎建辉;孟珍;周园春 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06F19/22 | 分类号: | G06F19/22 |
代理公司: | 北京君尚知识产权代理事务所(普通合伙) 11200 | 代理人: | 李稚婷 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基因 序列 数据 筛选 方法 | ||
技术领域
本发明属于应用生物信息学技术领域,尤其涉及一种基因序列数据筛选方法,主要应用于生物系统发育、生物条形码、生物物种鉴定等相关领域的基因数据筛选和质量控制。
背景技术
生物分子系统发育研究在不同水平和层次上依赖于对数据的使用:从简单的检索到PCR污染物的检查,到寻找一个给定序列的类群同源性序列,到更全面的基于大量数据进行的类群和位点的数据挖掘(McMahon,M.M.,and M.J.Sanderson.2006.”Phylogeneticsupermatrix analysis of GenBank sequences from 2228papilionoid legumes”.Syst.Biol.55:818-836;Ciccarelli,F.D.,T.Doerks,C.von Mering,C.J.Creevey,B.Snel,and P.Bork.2006.”Toward automatic reconstruction of a highly resolved tree of life.Science 311:1283-1287;Bininda-Emonds,O.R.P.,M.Cardillo,K.E.Jones,R.D.E.MacPhee,R.M.D.Beck,R.Grenyer, S.A.Price,R.A.Vos,J.L.Gittleman,and A.Purvis.2007.”The delayed rise ofpresent-day mammals”.Nature 446:507-512;Li,C.H.,G.Orti,G.Zhang,and G.Q.Lu.2007.”Apractical approach to phylogenomics:The phylogeny of ray-finned fish(Actinopterygii)as a casestudy”.BMC Evol.Biol.7:44;MICHAEL J.SANDERSON,1 DARREN BOSS,et al.2008.“ThePhyLoTA Browser:Processing GenBank for Molecular Phylogenetics Research”,Syst.Biol.57(3):335-346.)。
分子生物学的早期研究积累了大量的基因序列数据。以国际核算序列数据库联盟(International Nucleotide Sequence Database Collaboration,INSDC)成员之一的GenBank为例(Michael Y.Galperin.2011.“The Molecular Biology Database Collection:2011updae”.Nucl.Acids Res.35:D3-D4),截至2010年9月统计的数字,传统的GenBank版本中在720,000,000条序列纪录中有75,000,000,000碱基对数据;在WGS版本中有92,369,977,826碱基对的海量数据。
与生物分子系统发育学相关的最重要的注释是类群的名称和基因或序列区域的名称的注释,但在其发布的数据中呈现明显的问题,同时,其中还存在注释错误或模糊、一条数据重复提交的问题(Vilgalys,R.2003.“Taxonomic misidentification in public DNA databases”.New Phytol.160:4-5;McMahon,M.M.,and M.J.Sanderson.2006.“Phylogenetic supermatrixanalysis of GenBank sequences from 2228papilionoid legumes”.Syst.Biol.55:818-836.)。
即使从INSDC拿到的序列,不存在注释错误的问题,但是其测序的质量却不一定符合相关系统发育学研究的需要。如在BARCODE Data Standards v.2.3(26March 2009)中就建议:做为潜在物种条形码的序列是在测序中双向覆盖无N碱基且序列谱图文件的PHRED scores不能低于40%。
所以,需要提供一种方法对现有基因序列数据进行筛选,摈弃注释错误或模糊、测序精度参差的不符合后续挖掘要求的数据。随后,当在已测公开数据中没有找到符合条件的基因序列数据时进行补充测序。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110400122.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:导线圆盘式电机
- 下一篇:一种罐式集装箱端框架组对工装
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置