[发明专利]一种基于启发式宽度优先搜索肿瘤相关基因的方法无效
申请号: | 201310019941.5 | 申请日: | 2013-01-18 |
公开(公告)号: | CN103186717A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 黄上峰;王树林;李雪玲;赵俊;邱萍;王耀雄;葛运建;双丰;朱旻 | 申请(专利权)人: | 中国科学院合肥物质科学研究院 |
主分类号: | G06F19/24 | 分类号: | G06F19/24 |
代理公司: | 合肥天明专利事务所 34115 | 代理人: | 奚华保 |
地址: | 230031 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于启发式宽度优先搜索肿瘤基因的方法,采用在选出的基因子集中的出现频数来度量基因,排在前面的基因被认为是最重要的肿瘤相关基因,并由此设计分类器,及建立基于HBSA的基因排序方法。研究表明信息基因选择在改善分类性能方面起着重要作用,因此发现具有最高分类性能的最小基因子集是一个非常重要的研究目标,因为这些基因有可能作为重要的肿瘤临床诊断标志。实验结果表明本发明不仅能够获得很好的泛化性能而且能够发现重要的肿瘤基因。且选出的基因的出现频数关于基因的数量符合幂率分布。这些分类准确率非常高的基因子集中的基因与特定的肿瘤亚型之间存在密切的联系,甚至这些基因就是与肿瘤直接相关的重要基因。 | ||
搜索关键词: | 一种 基于 启发式 宽度 优先 搜索 肿瘤 相关 基因 方法 | ||
【主权项】:
1.一种基于启发式宽度优先搜索肿瘤基因的方法,其特征在于:采用在选出的基因子集中的出现频数来度量基因,排在前面的基因被认为是最重要的肿瘤相关基因,并由此设计分类器,及建立基于HBSA算法的基因排序方法,其步骤如下: (1)、设G={g1,…,gn}表示一组基因,集合S={s1,…,sm}表示一组样本;其中|G|=n表示基因的数量,|S|=m表示样本的数量;相应的基因表达谱数据集表示为矩阵X=(xi,j)mn,1≤i≤m,1≤j≤n,其中xi,j表示基因gj在样本si的表达量,通常n>>m; 在基因表达矩阵中每一个向量si都被看作n-维空间中的一个点。并且m个样本向量中每一个都由n个元素的表达向量组成;假设L={c1,…,ck}表示数据集中标签集合,|L|=k表示数据集中类别的数量;通常,每个样本的类别识已知的,因此,S×L={(si,li)|si∈Rn,li∈Rn,li∈L,i=1,2,…,m}表示带有类别标签的样本空间; (2)、从基因空间P(G)即基因集合G的幂集中选择具有最高分类性能的信息基因子集T;假设具有强分类性能的基因子集与特定的肿瘤亚型相关,记号Acc(T)表示基因子集T对样本数据集的分类能 力,通常采用分类器的预测精度来度量T分类性能,选出得信息基因子集T要满足下面两个目标: minT∈P(G)(|T|) (1) maxT∈P(G)(Acc(T)) (2)
其中|T|表示基因子集T的基数,满足目标(1)和(2)的基因子集被称为最佳基因子集T*;最佳子集A*包含了所有的最佳基因子集T*,也就是说,
T*同时满足目标(1)和(2)}。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院合肥物质科学研究院,未经中国科学院合肥物质科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310019941.5/,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06 计算;推算;计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用