[发明专利]一种用数字标识生物序列和推断物种亲缘关系的方法有效
申请号: | 201310557139.1 | 申请日: | 2013-11-12 |
公开(公告)号: | CN103559427B | 公开(公告)日: | 2017-10-31 |
发明(设计)人: | 高扬;罗辽复 | 申请(专利权)人: | 高扬;罗辽复 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 包头市专利事务所15101 | 代理人: | 安平 |
地址: | 014030 内蒙古自治*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数字 标识 生物 序列 推断 物种 亲缘 关系 方法 | ||
技术领域
本发明运用生物信息学方法挖掘并整合序列信息关联特征,进而使用数字对生物序列和物种进行标识及亲缘关系分析,属于信息学在生物学领域的应用。
背景技术
生物序列包括氨基酸序列和核苷酸序列,其中核苷酸序列又分为脱氧核糖核酸(DNA)序列和核糖核酸(RNA)序列。DNA序列由腺苷酸(A)、胞苷酸(C)、鸟苷酸(G)和胸苷酸(T)四种核苷酸单体聚合而成,通常用四个字母组成的符号序列表示。类似的,RNA序列可以用A、C、G和U四个字母组成的符号序列表示,其中代替T的U是尿苷酸。已测序物种的全基因组序列长度从几千到百万,甚至数十亿个字母。
研究人员尝试从生物序列中抽提出数据标识生物序列,并应用基因组序列寡聚体(K-mer)频数特征进行系统发生学方法的研究。比如中国科学院院士郝柏林先生的组分法(CVTree)[1]用205个数据推演物种进化关系,美国科学家Kim等人的特征频数法(FFP)[2]甚至用高达208个(数据量远远超过基因组数据量)个数据做进化研究。他们的方法容易受到高维数少样本的制约而不适用于小基因组或短序列,比如细小病毒[3],而且并不能实现用少量数据标识生物(序列)。
为了提高标识生物(序列)和推演生物(序列)亲缘关系的实用性,我们做出了新的尝试。与基于K-mer频数统计的方法不同,我们从信息学理论出发,研究序列(DNA或RNA)的信息关联特征,提出用信息关联(IC)和偏信息关联(PIC)标识基因组,并进一步以其推演生物(序列)亲缘关系。
发明内容
本发明提供一种用数字标识生物(序列)的方法,并展示了其在推演生物(序列)亲缘关系中的应用。接下来,我们将介绍信息关联和偏信息关联的计算、生物(序列)识别码的构建及其在亲缘关系研究中的应用。
本发明中所指序列可以是生物基因组全部序列,也可以是生物基因组序列片段;可以是DNA序列也可以是RNA序列。本发明所用的序列数据为公共资源,可以通过美国国立生物技术信息中心(NCBI)数据库、欧洲分子生物学实验室数据库(EMBL)和日本DNA数据库(DDBJ)等全球性的公共数据库,免费获得并使用。
为了实现以上发明目的,本发明提供以下技术方案:
一、信息关联和偏信息关联
以给定DNA序列为例,构成序列的元素是碱基A、G、C、T,根据统计学方法:碱基i(i=A、G、C、T)出现的概率为pi;碱基j(j=A、G、C、T)出现的概率为pi;相距k个距离的两个位置分别出现碱基i和碱基j的联合概率pi(k)j,再根据信息学理论可以得出整条序列的碱基关联信息量:
我们称Dk+2为信息关联。
对于实际序列计算pi(k)j时,为了避免有限长度(N)产生的边缘效应,可以引进周期性边界条件,即将序列前面的k+1个碱基接在序列的尾部,形成长为N+k+1的序列,然后计数相距k的碱基对ij(Ni(k)j),求出pi(k)j()。加之泰勒展开式,公式(1)可以写成
此时xi(k)j=(Ni(k)j-Npipj)/Npipj。当N大时,信息关联可以写成
求和跨越16种碱基关联,为描述特定碱基关联我们引入偏信息关联(PIC)
Fi(k)j=(Pi(k)j-PiPj)2(2)
二、生物(序列)识别码
生物(序列)识别码可以表示成矩阵、向量或其他形式,例如:
[FA(k0)A,FA(k0)T,...,FG(k0)G,Dk0+2,FA(k0+1)A,...,FG(k0+1)G,Dk0+3,...Dk0+d+1],(5)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高扬;罗辽复,未经高扬;罗辽复许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310557139.1/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用