[发明专利]一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法有效

专利信息
申请号: 201310680407.9 申请日: 2013-12-11
公开(公告)号: CN103678954B 公开(公告)日: 2017-05-24
发明(设计)人: 王莹莹;蔡云鹏 申请(专利权)人: 深圳先进技术研究院
主分类号: G06F19/24 分类号: G06F19/24
代理公司: 广州三环专利代理有限公司44202 代理人: 郝传鑫,熊永强
地址: 518055 广东省深圳*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 生物芯片 数据 构建 类别 特异 表达 子集 方法 及其 应用 评价
【权利要求书】:

1.一种由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,包括以下步骤:

(1)设置和输入n组芯片数据;所述n不小于3,所述n组芯片数据的分组依据为根据不同生理状态将数据进行分组;

(2)筛选多组间差异表达的分子,包括:

对任意一个分子进行多组间的单因素方差分析,并为所得统计值设定阈值;判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;如果判断结果为是,则输出识别结果,执行下一步;

(3)通过统计学检验的方法计算多组间差异表达分子在任意两组间的表达差异,为所得统计值设定阈值;

并针对多组间差异表达分子中的每个分子,构建长度为的向量,如果所得统计值高于阈值,则在向量中相应的位置记为0,反之,记为1,得到多组间差异表达分子中的每个分子的差异表达模式编码;

(4)根据步骤(3)所得每个分子的差异表达模式编码将分子进行分组,其中,具有相同编码模式的分子归为同一组,得到m个阶段特异表达分组;

(5)筛选多组间差异表达的分子,包括采用Fisher精确检验对所得m个阶段特异表达分组进行富集分析,包括:

以基因注释生物学信息为对照,对各阶段特异表达分组中的每个分子进行注释,保留各阶段特异表达分组中可以富集到相同生物功能节点的分子,组成类别特异表达的分子集合;

(6)根据类别特异分子集构建各状态间的连接网络,得到类别网。

2.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(1)中,所述n为不小于3的自然数,所述n组芯片数据的分组依据为根据不同生理状态将Q个样本数据进行分组,其中,Q为不小于3的自然数。

3.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(2)中,所述对任意一个分子进行多组间的单因素方差分析的方法为F分布检验,包括:

为每个分子计算统计量p值,计算公式为

p=P{F(r-1,n-r)>F};

所述所得统计值设定的阈值为0.05;

所述判断所得统计值是否符合阈值要求,如果判断结果为否,则抛弃;

如果判断结果为是,则输出识别结果,执行下一步的过程包括:如果统计量p大于阈值,则抛弃此分子;如果统计量p不大于阈值,则输出识别结果,执行下一步,其中,所述阈值为0.05。

4.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(3)中,所述计算多组间差异表达分子在任意两组间的表达差异的统计学检验方法为t检验,所述为统计值设定的阈值为0.05。

5.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(4)中,所述m为自然数,且不大于

6.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(5)中,所述对所得m个阶段特异表达分组进行富集分析所采用的Fisher精确检验为单侧Fisher精确检验;所述基因注释生物学信息为以下数据库或信息:基因本体论数据库的三个子库、基因组位置信息、生物学通路信息、microRNA靶基因信息、转录因子和已知疾病信息中的一种或多种数据库或信息。

7.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(5)中,所述保留各阶段特异表达分组中可以富集到相同节点的分子的过程包括:对所得每个生物学功能节点的统计量p,设定阈值为0.05,如果统计值p大于阈值,则抛弃相应的节点;如果统计值p不大于阈值,则保留相应的节点,并保留富集到此节点的分子。

8.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法,其特征在于,所述步骤(6)中,根据类别特异分子集构建各状态间的连接网络,得到类别网的步骤包括:将每个类别作为网络中的一个节点,如果两个状态间存在类别特异表达分子集,则将二者用边连接起来。

9.如权利要求1所述的由生物芯片数据构建多类别特异表达分子集及类别网的方法在分析基因表达谱数据、代谢组学生物芯片检测数据及microRNA生物芯片检测数据中的应用。

10.一种评价由生物芯片数据构建的多类别特异表达的分子集合分类能力的方法,其特征在于,包括以下步骤:

S01、取如权利要求1步骤(5)所述的任一个类别特异表达的分子集合,每个分子集合中的样本数目记为mB,给每个分子集合标记组标签,记为G1…GB,其中,mB和B为自然数;

S02、采用k均值聚类对权利要求1所述m组数据进行分析,得到C类,给每个类标记类标签,记为K1…KC,每类中的样本数目记为SC,其中,SC和C为自然数;

S03、对C类中的每个类别进行分析,将第KC类中来源于同一GB组的样本数进行统计,分别记为nG1…nGB,将nG1…nGB除以相应的样本数m1…mB进行标准化后,计算f_score的分值,计算的公式为:

f_score=nGB/mB/SC

将每个C类中具有最大f_score的类标签记为该类的最终的类标签;

S04、若得到C类最终类标签,且所述最终类标签互不相同,则说明如权利要求1步骤(5)所述的多类别特异表达的分子集合的分类能力较好。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳先进技术研究院,未经深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310680407.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top