[发明专利]基于核苷酸位差的频谱3-周期性信噪比计算方法有效
| 申请号: | 201310112959.X | 申请日: | 2013-04-03 |
| 公开(公告)号: | CN103150491A | 公开(公告)日: | 2013-06-12 |
| 发明(设计)人: | 冯钧;陈焕霖;盛震宇;金圣韬;唐志贤;朱跃龙;李士进;万定生;徐黎明;许潇;冯读庆;姜康;朱康康;史涯晴;刘子源 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F19/20 | 分类号: | G06F19/20 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 210098 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 核苷酸 频谱 周期性 计算方法 | ||
技术领域
本发明涉及一种基于核苷酸位差的频谱3-周期性信噪比计算方法,包含DNA序列频谱计算、信噪比计算,属于生物信息学中的基因识别技术领域。
背景技术
DNA是生物遗传信息的载体,是一种长链聚合物,由腺嘌呤(Adenine,A),鸟嘌呤(Guanine,G),胞嘧啶(Cytosine,C),胸腺嘧啶(Thymine,T)这四种核苷酸(nucleo tide)符号按一定的顺序连接而成。其中带有遗传讯息的DNA片段称为基因(Gene)(见图1第一行)。在真核生物的DNA序列中,基因通常被划分为许多间隔的片段(见图1第二行),其中编码蛋白质的部分,即编码序列(Coding Sequence)片段,称为外显子(Exon),不编码的部分称为内含子(Intron)。外显子在DNA序列剪接(Spli cing)后仍然会被保存下来,并可在蛋白质合成过程中被转录(transcri ption)、复制(replica tion)而合成为蛋白质。DNA序列通过遗传编码来储存信息,指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质(pro tein)上去并实现各种生命功能。
对给定的DNA序列,怎么去识别出其中的编码序列,也称为基因预测,是一个尚未完全解决的问题,也是当前生物信息学的一个最基础、最首要的问题。
基因预测问题的一类方法是基于统计学的。很多国际生物数据网站上也有“基因识别”的算法。比如知名的数据网站http://genes.mit.edu/GENSCAN.html提供的基因识别软件GENSCAN(由斯坦福大学研究人员研发的、可免费使用的基因预测软件),主要就是基于隐马尔科夫链(HMM)方法。但是,它预测人的基因组中有45000个基因,相当于现在普遍认可数目的两倍。另外,统计预测方法通常需要将编码序列信息已知的DNA序列作为训练数据集来确定模型中的参数,从而提高模型的预测水平。但在对基因信息了解不多的情况下,基因识别的准确率会明显下降。
因此在目前基因预测研究中,采用信号处理与分析方法来发现基因编码序列也受到广泛重视。图2是基于序列频谱3-周期性的基因识别方法流程图:在DNA序列研究中,首先需要把A、T、G、C四种核苷酸的符号序列,根据一定的规则映射成相应的数值序列,以便于对其作数字处理。
令I={A,T,G,C},长度(即核苷酸符号个数)为N的任意DNA序列,可表达为
S={S[n]|S[n]∈I,n=0,1,2,…N-1}
即A、T、G、C的符号序列S:S[0],S[1],…,S[N-1]。现对于任意确定的b∈I,令
称之为Voss映射,于是生成相应的0-1序列(即二进制序列){ub[n]}:
ub[0],ub[1],…,,
ub[N-1](b∈I),称为指示序列。对指示序列分别做离散Fourier变换(DFT)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310112959.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





