[发明专利]一种用数字标识生物序列和推断物种亲缘关系的方法有效

专利信息
申请号: 201310557139.1 申请日: 2013-11-12
公开(公告)号: CN103559427B 公开(公告)日: 2017-10-31
发明(设计)人: 高扬;罗辽复 申请(专利权)人: 高扬;罗辽复
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 包头市专利事务所15101 代理人: 安平
地址: 014030 内蒙古自治*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数字 标识 生物 序列 推断 物种 亲缘 关系 方法
【说明书】:

技术领域

发明运用生物信息学方法挖掘并整合序列信息关联特征,进而使用数字对生物序列和物种进行标识及亲缘关系分析,属于信息学在生物学领域的应用。

背景技术

生物序列包括氨基酸序列和核苷酸序列,其中核苷酸序列又分为脱氧核糖核酸(DNA)序列和核糖核酸(RNA)序列。DNA序列由腺苷酸(A)、胞苷酸(C)、鸟苷酸(G)和胸苷酸(T)四种核苷酸单体聚合而成,通常用四个字母组成的符号序列表示。类似的,RNA序列可以用A、C、G和U四个字母组成的符号序列表示,其中代替T的U是尿苷酸。已测序物种的全基因组序列长度从几千到百万,甚至数十亿个字母。

研究人员尝试从生物序列中抽提出数据标识生物序列,并应用基因组序列寡聚体(K-mer)频数特征进行系统发生学方法的研究。比如中国科学院院士郝柏林先生的组分法(CVTree)[1]用205个数据推演物种进化关系,美国科学家Kim等人的特征频数法(FFP)[2]甚至用高达208个(数据量远远超过基因组数据量)个数据做进化研究。他们的方法容易受到高维数少样本的制约而不适用于小基因组或短序列,比如细小病毒[3],而且并不能实现用少量数据标识生物(序列)。

为了提高标识生物(序列)和推演生物(序列)亲缘关系的实用性,我们做出了新的尝试。与基于K-mer频数统计的方法不同,我们从信息学理论出发,研究序列(DNA或RNA)的信息关联特征,提出用信息关联(IC)和偏信息关联(PIC)标识基因组,并进一步以其推演生物(序列)亲缘关系。

发明内容

本发明提供一种用数字标识生物(序列)的方法,并展示了其在推演生物(序列)亲缘关系中的应用。接下来,我们将介绍信息关联和偏信息关联的计算、生物(序列)识别码的构建及其在亲缘关系研究中的应用。

本发明中所指序列可以是生物基因组全部序列,也可以是生物基因组序列片段;可以是DNA序列也可以是RNA序列。本发明所用的序列数据为公共资源,可以通过美国国立生物技术信息中心(NCBI)数据库、欧洲分子生物学实验室数据库(EMBL)和日本DNA数据库(DDBJ)等全球性的公共数据库,免费获得并使用。

为了实现以上发明目的,本发明提供以下技术方案:

一、信息关联和偏信息关联

以给定DNA序列为例,构成序列的元素是碱基A、G、C、T,根据统计学方法:碱基i(i=A、G、C、T)出现的概率为pi;碱基j(j=A、G、C、T)出现的概率为pi;相距k个距离的两个位置分别出现碱基i和碱基j的联合概率pi(k)j,再根据信息学理论可以得出整条序列的碱基关联信息量:

我们称Dk+2为信息关联。

对于实际序列计算pi(k)j时,为了避免有限长度(N)产生的边缘效应,可以引进周期性边界条件,即将序列前面的k+1个碱基接在序列的尾部,形成长为N+k+1的序列,然后计数相距k的碱基对ij(Ni(k)j),求出pi(k)j()。加之泰勒展开式,公式(1)可以写成

此时xi(k)j=(Ni(k)j-Npipj)/Npipj。当N大时,信息关联可以写成

求和跨越16种碱基关联,为描述特定碱基关联我们引入偏信息关联(PIC)

Fi(k)j=(Pi(k)j-PiPj)2(2)

二、生物(序列)识别码

生物(序列)识别码可以表示成矩阵、向量或其他形式,例如:

[FA(k0)A,FA(k0)T,...,FG(k0)G,Dk0+2,FA(k0+1)A,...,FG(k0+1)G,Dk0+3,...Dk0+d+1],(5)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高扬;罗辽复,未经高扬;罗辽复许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310557139.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top