[发明专利]分层简化大规模图数据的运算方法有效
| 申请号: | 201210176708.3 | 申请日: | 2012-05-31 |
| 公开(公告)号: | CN102750460A | 公开(公告)日: | 2012-10-24 |
| 发明(设计)人: | 毛国勇;张燕红;张永春;徐磊;彭颖 | 申请(专利权)人: | 常州工学院 |
| 主分类号: | G06F19/18 | 分类号: | G06F19/18 |
| 代理公司: | 常州市江海阳光知识产权代理有限公司 32214 | 代理人: | 汤志和 |
| 地址: | 213011 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分层 简化 大规模 数据 运算 方法 | ||
技术领域
本发明涉及一种分层简化大规模图数据的运算方法。
背景技术
在数学上,一个图(Graph)是表示物件与物件之间的关系的方法,是图论的基本研究对象。一个图看起来是由一些小圆点(称为顶点或结点)和连结这些圆点的直线或曲线(称为边)组成的。
在金融、生物信息、社会学、交通管理以及软件工程等多个领域,经常需要对大规模图数据进行分析,而对数据的可视化则是分析、理解这些数据的直观、有效的方法,受到了越来越多的关注。由于很难一次性载入大规模数据进行分析,人们通常先根据图的特性将原始图简化,得到具备一定代表性意义的母图的缩略图,然后再通过子图与母图交互,根据需要对数据进行显示、分析。
图简化方法通常分为图聚合法和图过滤法两类。图聚合法将多个点合并,将多条边合并,从而减小图的大小,并揭示一组点间的关系。这种方法可以被多次重复,从而得到层次化的图。但是,用这种方法得到的合并后的点和边失去了其原始的语义,因此,简化后子图的代表性不强。
与图聚合法相比,图过滤法能够保留点和边的语义,因为简化后的图是原始图的子图。图过滤法又分为随机性过滤和确定性过滤两种。随机性过滤也称为采样,用来从大规模图中得到代表性的样本。但是,由于对数据进行随机采样,因此,用这种简化方法得到的子图的代表性也不强。确定性过滤采用确定性的算法来选择待移除的点和边,这种过滤可以基于点和边的性质以及图的拓扑结构等特性。目前使用最多的是基于介数进行过滤的方法,介数表示的是一个节点位于其它节点间的最短路径上的频率,频率越高,则该点的介数越高,该点就越重要。这种方法得到的简化子图的代表性最好,但是,由于介数方法需要计算所有顶点间最短路径,而所有顶点间最短路径的计算非常耗时,因此,该方法难以应用于大规模图数据的简化。
随着人类基因组计划和许多物种全基因组测序的完成,生命科学研究的重点已经逐渐从基因组学转移到了蛋白质组学。蛋白质是构成一切细胞和组织结构必不可少的成分,它是生理功能的执行者,是生命活动最重要的物质基础。然而,不同的蛋白质对生命活动的重要性是有差异的。以此为依据,可以将蛋白质分为关键蛋白质 (essential proteins)和非关键蛋白质(non一 essential proteins)两类。关键蛋白质为通过基因剔除式突变将其移除后造成有关蛋白质复合物功能丧失,并导致生物体无法生存的蛋白质。简而言之,关键蛋白质是生物体生存和繁殖所必需的蛋白质。由于关键蛋白质在生命活动中扮演重要角色,因此对于关键蛋白质的预测与识别成为一项重要的研究工作。在生物学上,关键蛋白质的识别主要是依靠生物实验的方法,例如RNA干扰、单基因敲除、条件性基因剔除等。通过这些实验技术得到的结论虽然是明确和有效的,但是代价高、效率低,并且适用的物种范围有限。针对蛋白质互相作用网络进行非关键蛋白质分子的筛选,保留关键蛋白质分子,已经成为急需解决的问题。
相关参考文献:
[1] 《图论导引》,美国: Gray chartrand , Ping Zhang著,范益政,汪毅,朱明译,人民邮电出版社,2007年9月第1版,ISBN: 9787115161536;
[2] 《图论算法理论、实现及应用》,中国:王桂平,王衍,任嘉辰主编,北京大学出版社,2011年1月第1版,ISBN: 978-7-301-17578-1/TP·1122;
[3] 《离散数学》,中国:左孝凌、李为鉴、刘永才著,上海科学技术文献出版社,1982年9月第一版,ISBN:7805130698, 9787805130699。
发明内容
本发明的目的是:一、针对目前图简化方法得到的子图的代表性不强或计算复杂度过大的问题,提出一种新的适用于大规模图数据的简化方法,该方法的计算速度快且得到的简化子图具备较强的代表性;二、针对目前蛋白质互相作用网络的图数据,提出一种适于对蛋白质相互作用网络的分层简化大规模图数据的运算方法,解决了传统方法中成本昂贵和耗时的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州工学院,未经常州工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210176708.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:打孔装订一体机
- 下一篇:一种小区重选方法及装置
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





