[发明专利]生物边标识系统的建立方法和系统在审
申请号: | 201410640410.2 | 申请日: | 2014-11-13 |
公开(公告)号: | CN105590037A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 陈洛南;张万纬 | 申请(专利权)人: | 中国科学院上海生命科学研究院 |
主分类号: | G06F19/10 | 分类号: | G06F19/10 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 施浩 |
地址: | 200031 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生物 标识 系统 建立 方法 | ||
1.一种生物边标识系统的建立方法,包括:
收集具有双状态的数据;
选出相关性符合显著差异条件的基因对;
对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值 数据转化为代表相关性的边数据;
应用特征选择算法找出边数据中分类能力最佳的基因对,将分类能力最佳的 基因对作为生物边标识,从而建立起生物边标识系统。
2.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,所述具 有双状态的数据包括:正常状态数据和疾病状态数据、转移状态数据和非转移状 态数据、有药物抵抗状态的数据和无药物抵抗状态的数据。
3.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,所述具 有双状态的数据的数据类型包括基因对的表达谱或丰度谱数据。
4.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,在所述 收集具有双状态的数据的步骤之后还包括:
对数据进行预处理,去除表达均值低于设定值或变异系数高于设定值的基因。
5.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,在所述 选出相关性符合显著差异条件的基因对的步骤中,计算基因对在双状态下的相关 系数,根据双状态下的相关系数的差异的绝对值和阈值的比较来确定相关性是否 符合显著差异条件。
6.根据权利要求1所述的生物边标识系统的建立方法,其特征在于,在所述 对于相关性符合显著差异条件的基因对,通过矩阵变换,将基因对的表达值数据 转化为代表相关性的边数据的步骤中,基因对的表达值数据是矩阵形式:
其中,xij代表生物分子i在所述双状态中的第一状态下第j个样本的表达谱 的数值或丰度谱的数值,yij代表生物分子i在所述双状态中的第二状态下第j个 样本的表达谱的数值或丰度谱的数值;
矩阵转换的过程为:
对于给定的基因对u和v,做如下变换:
其中,<u,v>N和<u,v>D分别是指基因对u,v在第一状态下和第二状态下的边 特征,分别是基因对u和v在第一状态和第二状态下的表达谱的 数值或丰度谱的数值的均值,Sxu,Sxv,Syu,Syv分别是基因对u和v在第一状态 下和第二状态下的方差,k1,k2为校正系数,所有相关性符合显著差异条件的基 因对得到的<u,v>N和<u,v>D所组成的矩阵就是基因对对应的边数据,边数据代表 该基因对在不同状态下的相关性,每一个基因对由边数据里的两个对偶的变量或 特征所刻画。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院上海生命科学研究院,未经中国科学院上海生命科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410640410.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用