[发明专利]基于遗传算法和隐马尔可夫模型的CpG岛识别方法、装置在审
申请号: | 201710725585.7 | 申请日: | 2017-08-22 |
公开(公告)号: | CN107577918A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 刘弘;何演林;郑元杰;赵丹丹;陆佃杰;吕晨 | 申请(专利权)人: | 山东师范大学 |
主分类号: | G06F19/12 | 分类号: | G06F19/12;G06F19/18;G06F19/20;G06N3/12 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250014 *** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 遗传 算法 隐马尔可夫 模型 cpg 识别 方法 装置 | ||
技术领域
本发明属于生物信息领域,具体涉及一种基于遗传算法和隐马尔可夫模型的CpG岛识别方法、装置。
背景技术
随着生物基因测序的完成,在基因序列识别上面临着诸多问题和挑战。在许多基因组中最少见的二核苷酸是CG,CG中的C最容易被甲基化,这会导致C突变成T。但是甲基化作用常常被一个区域的基因所抑制,这个区域就是CpG岛。它是一类长度在几百bp的特殊DNA序列,其中CG核苷酸出现的频率非常高。每发现一个CpG岛就意味着其序列可能包含基因转录的启动子及其第一外显子而且CpG岛的识别有助于在基因组序列中确定我们感兴趣的区域。因此,CpG岛对基因序列识别具有至关重要的意义。
CpG岛的识别主要面临两个问题:1.给定一条短基因组序列,如何判断它是否来自CpG岛。2.给定一条长序列,如果含有CpG岛,如何识别。
目前的研究主要集中在第二个问题上。研究者认为长度大于200bp,CG在50%以上,实际CpG含量与期望CpG含量的比值大于0.6的区域被称为CpG岛。传统的CpG岛的识别算法是定义一个滑动窗口,通过计算窗口内基因序列的CG含量和实际CpG含量与期望CpG含量的比值实现的。我们可以发现窗口大小的设定,对识别效果的影响较大,而且计算复杂度也很大。并且提出的判别标准都是人为定义的,因此识别出的CpG岛生物学意义不大。为了能够正确找出更具生物学意义的判别标准,有研究者提出基于隐马尔可夫模型(HMM)的方法来识别CpG岛的位置。HMM是一种概率模型,它由一个隐含状态变化序列和由该隐含状态产生的可观察符号序列组成。
一个隐马尔可夫模型是有字母表∑、一个状态集合Q、一个状态概率矩阵A和一个发出概率矩阵B定义的,其中:
●∑是一个字母表;
●Q表示从字母表中发出的符号的集合;
●A描述的是HMM从状态t转移到状态t+1状态的概率;
●B描述的是HMM在状态t时刻发出的符号s的概率;
一旦一个系统可以作为HMM被描述,就可以用来解决三个基本问题。
·解码问题:给定模型和字符序列,在模型中寻找一条最优路径。该路径从起始状态出发,路径中每个状态都选择释放一个字符,实现解码操作。
·评估问题:对于给定模型,求产生字符序列的概率。一般情况下选择前向算法来计算给定HMM后的一个观测序列的概率,并因此选出最合适的HMM。
·学习问题:根据观测序列生成HMM。
其中前两个是模式识别的问题:给定HMM求一个观察序列的概率(评估);搜索最有可能生成一个观察序列的隐藏状态序列(解码)。第三个问题是给定观察序列生成一个HMM(学习)。第三个问题,也是与HMM相关的问题中最难的,根据一个观察序列(来自于已知的集合),以及与其有关的一个隐藏状态集,估计一个最合适的隐马尔科夫模型。HMM中总共有八种状态:{A+,G+,C+,T+,A-,G-,C-,T-},A+表示此状态在CpG岛内部,A-表示此状态在CpG岛外部。模型中每个碱基对应着两种状态。在给定碱基序列情况下,不能确定碱基对应于何种状态值。模型中,状态之间是允许相互转换的。隐马尔可夫模型的使用方法如下:
首先收集一定数量的已经确定的CpG岛的DNA序列,利用这些真实的数据训练出模型的参数,即隐马尔可夫模型的学习问题。通过建立隐马尔可夫模型从训练数据中得到模型参数,进一步用训练得到的模型识别CpG岛。
对于HMM及一个相应的观察序列,我们希望找出生成此序列的最可能的隐藏状态序列。我们可以通过列出所有可能的隐藏状态序列并计算对应每个组合相应的观察序列的概序来找最可能的隐藏状态,但是这种方法计算复杂度很高。
隐马尔可夫模型是基于时序的概率模型,它依赖初始状态概率向量,转移概率矩阵和观察概率矩阵。经过研究发现,虽然隐马尔可夫模型在解决过度拟合问题上能取得较好的效果,但是仍然存在很多问题。它依赖于强烈的假设,下一状态仅受上一状态的影响,这种假设过于简化,因此,只有在假设和实际数据一致的情况下,隐马尔可夫模型才能根据最大似然估计做出有效和精准的识别。但是通常情况下,实际数据不仅仅受上一状态的影响。这使得HMM容易陷入局部最优的情况,且计算复杂度较高。为了能提高HMM对CpG岛的识别能力,需要对HMM参数进行优化设计。
发明内容
针对现有技术中存在的不足,本发明提供了一种基于遗传算法和隐马尔可夫模型的CpG岛识别方法,可以综合考虑HMM空间中的解,从而得出全局最优解,可以更好的优化HMM参数,从而提高对CpG岛识别能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东师范大学,未经山东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710725585.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用