[发明专利]一种基于统计显著性能快速识别基因组转录因子结合位点的系统无效
申请号: | 201210157108.2 | 申请日: | 2012-05-21 |
公开(公告)号: | CN103425900A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 单杲 | 申请(专利权)人: | 上海聚类生物科技有限公司 |
主分类号: | G06F19/20 | 分类号: | G06F19/20 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200333 上海市杨*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 统计 显著 性能 快速 识别 基因组 转录 因子 结合 系统 | ||
技术领域
本发明属于基因工程领域,尤其涉及到一种统计显著性开发的快速识别基因组转录因子结合位点的系统。
背景技术
预测序列模体是生物学家研究调控的主要挑战。这是一个十分经典的问题。因此有许多软件针对这个问题而开发。通俗地讲,他们能分类到三种类型 的模体检测。(1) 统计显著性,如YMF, MDscan. (2) Gibbs 抽样,例如 Gibbs 抽样器, MotifSampler, SesiMCMC, GAME, Improbizer 以及 GibbsScan 有些工具有更复杂的策略,例如著名的工具 MEME。
在转录调控研究的过程中, 我们注意到的转录因子的结合位点的一些基于一致输出的模体是相当困难的,有些基于 PWM 表示这些类型相当的困扰生物学家, 如果我们开始进一步地研究模体的输出,到整个基因启动子的反式作用元件,那样会包含相当多的假阳性, 来使用生物学研究,我们不得不花费大量的时间调节参数到我们希望的结果.。
出于一种简单的考虑, 我们开始一个简单的程序,只关注种子而不是PWM 的一致序列.我们的目的是找到启动子序列来迭代地构建一致序列或 PWM. 我们希望软件能真正服务我们的反式作用元件, 所以我们并不十分关心如何找到模体,而是关注我们的模体如何地进行调控分析。
这里有另外的三个问题需要我们考虑模体的输出:(1) 我们如何识别已知的模体, (2) 我们如何搜索我们的模体,使在全基因组搜索保存低假阳性率: (3) 我们如何真正降低模体的冗余。
发明内容
本发明的目的在于提供一个基于统计显著性的K串法预测基因组的转录因子结合位点的分析方案,旨在解决转录因子结合位点的全基因组预测的快速解决的问题。
本发明是这样实现的,所述方法包括如下几个步骤:
对基因组的给定的基因组启动子序列统计显著性计算,设置基本的统计显著性指标,P值和Z值,统计具有统计显著性的字符串。
对于已得到到统计显著性K串, 利用编辑距离进行聚类,得到邻近K串的几个聚类信息。
接着,利用自适应迭代算法计算每个聚类能生成权重矩阵,实现自动设置权重矩阵模型参数的解决方案。
该发明的另一个特点是能够实现系统自动调整权重矩阵的边界问题,我们筛选了一个自动迭代的算法过程,用于自动调整权重矩阵的边界问题,保持权重矩阵以中心为高显著性位置,两侧为低显著性位置的排布,把权重矩阵的中心化完美的实现出来,大大提高了权重矩阵的比对和有利于转录因子表示的标准化过程的实现。
本发明的再一个目的在于,我们开发了一套计算精确二阶度矩的计算方法,它可以有效提供统计显著性的精确值。
该统计显著性的二阶矩的计算模型是通过构建隐马尔科夫模型的自交迭迭代算法计算获得,具有线性算法的一般规律,计算复杂性很低。因此,具有快速实现结果预测的良好作用,是本发明研究的一个特点。
附图说明
图1,程序预测的基本流程示意图
图2,程序设计界面显示图
具体实施方式
根据上面的要求,我们开始了相应的程序的开发和Tampa的YMF相似,我们计算统计显著性,利用的是一个线性算法,我们同样也关注枚举方法的统计显著性字,产生的模体用Z值分类,其中W是给定的字,我们考虑字W的计数, Ew是从背景中计算期望,δw是字W的标准方差, Z值越大表示越显著.
我们的模体检测框架,来保持我们预测结果的稳定和可控.在很多情况下, 他是让我们很难联系实际问题, 这里有一些我们方法的特征.
对每个字串计算Z值,而不是针对沃森-克里克互补配对
背景概率的马尔科夫可变
严格的期望与方差的计算,而不是近似
利用编辑距离对冗余的显著字串聚类
自动搜索模体的侧翼边界
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海聚类生物科技有限公司,未经上海聚类生物科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210157108.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有过滤装置的机床冷却泵
- 下一篇:纱窗框
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用