[发明专利]基于周期三临近特征的外显子预测方法在审
申请号: | 201611023190.4 | 申请日: | 2016-11-21 |
公开(公告)号: | CN106778061A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 陈功;沈嘉悦;窦晓鸣;刘晨晨;朱锡芳;许清泉;倪一 | 申请(专利权)人: | 常州工学院 |
主分类号: | G06F19/18 | 分类号: | G06F19/18 |
代理公司: | 南京知识律师事务所32207 | 代理人: | 高桂珍 |
地址: | 213022 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 周期 临近 特征 外显子 预测 方法 | ||
技术领域
本发明涉及基因编码序列(外显子)的预测,提出了一种周期三临近特征外显子预测方法。
背景技术
人类基因组计划的顺利完成,使得剖析大量的DNA序列中丰富的生物信息成为可能,并对医学、药学、生物学等诸多领域具有重要的理论和实用价值。其中DNA序列信息的分析已逐渐成为分析化学的研究热点。基因是一组包含遗传信息的DNA序列,其能够通过遗传编码指导蛋白质的合成,把遗传信息准确无误地传递到蛋白质并实现生命的各种活动。存在于真核基因中的蛋白质编码序列由多不连续的片断组成,其中外显子编码蛋白质,内含子不编码蛋白质,通过剪切后去掉内含子后多个外显子连在一起,最后翻译成具有生命现象的蛋白质。
杜竹青的文章《一种提高外显子预测的改进周期3消噪策略》侧重于采用滤波算法实现周期三的去噪,邵建峰的《DNA序列信号3周期特性》则分析了周期三法阈值的确定方法,但上述文献均未考虑周期三行为的存在性。
田元新《外显子周期三行为特征的研究》对21个基因序列的103条外显子进行研究,发现许多外显子不具有周期三行为,但将它们连在一起编码蛋白质时大都表现出周期三行为。其研究结果表明:单个外显子的周期三行为与蛋白质编码序列长度、碱基在密码子偏好性以及氨基酸密码子的使用均有密切关系。文中给出的人类8个基因共43条外显子功率谱最大值对应的频率并非都现出周期三行为,但其功率谱的最大值均出现在1/3频率处或该频率临近。田元新的方法是基于三联码、蛋白质的翻译次序以及密码子使用偏好性对外显子序列进行调整和预测,但是该方法实际操作的难度大且密码子使用偏好性并不是有效识别外显子的指标。
常规FASTA和BLAST等基于序列相似性对比的预测方法对于短长度的外显子容易漏检。基于机器学习的外显子预测方法诸如神经网络、动态规划等方法对迭代阶数要求较高,阶数过低不能反映完整信息,阶数过高增加训练时间。
发明内容
针对现有的DNA序列周期三外显子预测方法存在的易漏检、检测效率低的问题,本专利旨在提出一种基于周期三临近特征的外显子预测方法,以达到更好的预测进度和 预测效率。
本发明旨在提供一种基于周期三临近特征的外显子预测方法,包括如下步骤:
步骤1、训练阶段:
选取已知的DNA序列,记录长度区间,建立DNA碱基序列的功率谱,并分别选取3倍数的外显子和内因子序列计算模板功率谱特征值;
步骤2、识别阶段:
取待识别DNA序列,滑动与训练阶段同样的长度区间,计算得到每组识别功率谱特征值;
步骤3、计算训练阶段模板的功率谱特征值与识别阶段的每组识别功率谱特征值的欧式距离,对1/3频率的临近区间进行距离判断;
步骤4、根据模板功率谱特征值与识别功率谱特征值的欧式距离,判断外显子位置。
上述的基于周期三临近特征的外显子预测方法,所述的步骤1具体为:
对DNA序列中每种碱基,分别将其位置记录为序列,得到4个碱基A、T、G、C的位置的序列和n为时间的离散值,式中,l表示DNA序列中外显子、内因子和外显子内因子混合的标记,记l=1表示外显子序列,记l=2表示内因子序列,舍弃内因子和外显子混合序列,将每一个序列按照如下公式进行快速傅里叶变换得到每个序列傅里叶变换值和
式中,j为虚数单位,n为时间的离散值,k为频域的离散值,N为周期长度,
采用如下公式,选取3倍数的外显子和内因子序列计算模板功率谱特征值,记为Sl[q],其中q为3倍频域的离散值
3倍频域的离散值q=…N/3-2,N/3-1,N/3,N/3+1,N/3+2…。
上述的基于周期三临近特征的外显子预测方法,所述的步骤2具体为:
取待识别DNA序列,滑动与训练阶段同样的长度区间,对待识别DNA序列中每种碱基,分别将其位置记录为序列,得到4个碱基A、T、G、C的位置的待识别序列ya(n),yt(n),yg(n)和yc(n),将每一个待识别序列按照如下公式进行快速傅里叶变换得到每个待识别序列傅里叶变换值Ya[k]、Yt[k]、Yg[k]和Yc[k]:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州工学院,未经常州工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611023190.4/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用