[发明专利]生物边标识系统的建立方法和系统在审
申请号: | 201410640410.2 | 申请日: | 2014-11-13 |
公开(公告)号: | CN105590037A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 陈洛南;张万纬 | 申请(专利权)人: | 中国科学院上海生命科学研究院 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200031 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物 标识 系统 建立 方法 | ||
技术领域
本发明涉及计算系统生物学和生物信息学,尤其涉及生物标识的处理方法和 系统。
背景技术
生物标识的研究一直是生物医学领域的重要课题,一个成功的生物标识能帮 助医生做出准确的诊断或者提出有效的治疗方案,因此寻找合适的生物标识对攻 克疾病特别是复杂疾病具有十分重要的意义。
人类复杂疾病是对病因不明确、涉及因素众多、无有效治疗手段的一类疾病 的统称,如各类癌症及糖尿病等。20世纪80年代以来,高通量生物技术(如DNB 芯片,高通量测序等)的迅猛发展,为人类复杂疾病的研究带来了机遇。
如何从这些技术所产生的海量数据中找出有用的生物标识也是当今生物标识 研究领域所面临的一大挑战。早期的研究关注于差异表达的基因或者蛋白等生物 分子,把具有区分能力的分子作为生物标识,这些方法简单直观,对于一些简单 疾病也起到很好的效果,但这些方法没有考虑分子之间存在复杂的相互作用,而 很多复杂疾病的发生往往是这些分子之间相互作用的改变导致的,因此这些方法 在复杂疾病中的应用效果并不好。
正因为如此,许多研究者开始从系统或网络的角度找生物标识,即考虑生物 分子间的各种相互作用所组成的网络,把具有区分能力的子网或者边集作为生物 标识。目前很少有理想的方法来实现这一目的。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述 不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决 定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给 出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
本发明的目的在于提供一种生物边标识系统的建立方法和系统,可以简单高 效的找出关键的相互作用的改变作为疾病发生发展的生物标识。
本发明的技术方案为:本发明揭示了一种生物边标识系统的建立方法,包括:
收集具有双状态的数据;
选出相关性符合显著差异条件的基因对;
对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值 数据转化为代表相关性的边数据;
应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的 基因对作为生物边标识,从而建立起生物边标识系统。
根据本发明的生物边标识系统的建立方法的一实施例,所述具有双状态的数 据包括:正常状态数据和疾病状态数据、转移状态数据和非转移状态数据、有药 物抵抗状态的数据和无药物抵抗状态的数据。
根据本发明的生物边标识系统的建立方法的一实施例,所述具有双状态的数 据的数据类型包括基因对的表达谱或丰度谱数据。
根据本发明的生物边标识系统的建立方法的一实施例,在所述收集具有双状 态的数据的步骤之后还包括:
对数据进行预处理,去除表达均值低于设定值或变异系数高于设定值的基因。
根据本发明的生物边标识系统的建立方法的一实施例,在所述选出相关性符 合显著差异条件的基因对的步骤中,计算基因对在双状态下的相关系数,根据双 状态下的相关系数的差异的绝对值和阈值的比较来确定相关性是否符合显著差异 条件。
根据本发明的生物边标识系统的建立方法的一实施例,在所述对于相关性符 合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据转化为代表相 关性的边数据的步骤中,基因对的表达值数据是矩阵形式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海生命科学研究院,未经中国科学院上海生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410640410.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用