[发明专利]一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法有效
申请号: | 201310680407.9 | 申请日: | 2013-12-11 |
公开(公告)号: | CN103678954B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 王莹莹;蔡云鹏 | 申请(专利权)人: | 深圳先进技术研究院 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 广州三环专利代理有限公司44202 | 代理人: | 郝传鑫,熊永强 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 生物芯片 数据 构建 类别 特异 表达 子集 方法 及其 应用 评价 | ||
1.一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:
(1)设置和输入n组芯片数据;所述n不小于3,所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组;
(2)筛选多组间差异表达的分子,包括:
对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;
(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;
并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;
(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;
(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:
以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;
(6)根据类别特异分子集构建各状态间的连接网络,得到类别网。
2.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(1)中,所述n为不小于3的自然数,所述n组芯片数据的分组依据为根据不同生理状态将Q个样本数据进行分组,其中,Q为不小于3的自然数。
3.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(2)中,所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验,包括:
为每个分子计算统计量p值,计算公式为
p=P{F(r-1,n-r)>F};
所述所得统计值设定的阈值为0.05;
所述判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;
如果判断结果为是,则输出识别结果,执行下一步的过程包括:如果统计量p大于阈值,则抛弃此分子;如果统计量p不大于阈值,则输出识别结果,执行下一步,其中,所述阈值为0.05。
4.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(3)中,所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验,所述为统计值设定的阈值为0.05。
5.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(4)中,所述m为自然数,且不大于
6.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(5)中,所述对所得m个阶段特异表达分组进行富集分析所采用的Fisher精确检验为单侧Fisher精确检验;所述基因注释生物学信息为以下数据库或信息:基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息中的一种或多种数据库或信息。
7.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(5)中,所述保留各阶段特异表达分组中可以富集到相同节点的分子的过程包括:对所得每个生物学功能节点的统计量p,设定阈值为0.05,如果统计值p大于阈值,则抛弃相应的节点;如果统计值p不大于阈值,则保留相应的节点,并保留富集到此节点的分子。
8.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(6)中,根据类别特异分子集构建各状态间的连接网络,得到类别网的步骤包括:将每个类别作为网络中的一个节点,如果两个状态间存在类别特异表达分子集,则将二者用边连接起来。
9.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法在分析基因表达谱数据、代谢组学生物芯片检测数据及microRNA生物芯片检测数据中的应用。
10.一种评价由生物芯片数据构建的多类别特异表达的分子集合分类能力的方法,其特征在于,包括以下步骤:
S01、取如权利要求1步骤(5)所述的任一个类别特异表达的分子集合,每个分子集合中的样本数目记为mB,给每个分子集合标记组标签,记为G1…GB,其中,mB和B为自然数;
S02、采用k均值聚类对权利要求1所述m组数据进行分析,得到C类,给每个类标记类标签,记为K1…KC,每类中的样本数目记为SC,其中,SC和C为自然数;
S03、对C类中的每个类别进行分析,将第KC类中来源于同一GB组的样本数进行统计,分别记为nG1…nGB,将nG1…nGB除以相应的样本数m1…mB进行标准化后,计算f_score的分值,计算的公式为:
f_score=nGB/mB/SC,
将每个C类中具有最大f_score的类标签记为该类的最终的类标签;
S04、若得到C类最终类标签,且所述最终类标签互不相同,则说明如权利要求1步骤(5)所述的多类别特异表达的分子集合的分类能力较好。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310680407.9/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置