[发明专利]一种基于图论和贪婪算法挖掘组学数据的方法在审
申请号: | 202110954038.2 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113793643A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 王敏;夏梦雷;王頔;闫欣瑶;夏艺铭;郑宇;申雁冰 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300457 天津市滨*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贪婪 算法 挖掘 数据 方法 | ||
本发明公开了一种基于图论和贪婪算法挖掘组学数据的方法。所述方法包括步骤:利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;对网络拓扑学结构进行解析。本发明整合了统计学和图论方法,实现了组学数据的有效降维和可视化,实现组学数据的准确挖掘。
技术领域
本发明涉及组学数据挖掘技术领域,特别是涉及一种基于图论和贪婪算法挖掘组学数据的方法。
背景技术
随着科学研究的不断发展,当代科学越来越认识到整体或系统的重要性,有些问题不能简单成局部事件将其处理,因为当一个独立部分放在一个高级结构中时,他们之间会因产生动态的相互作用产生不同的表现。这就有了系统生物学的最新定义:不同于以往仅仅关心个别的基因和蛋白质的分子生物学,在于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能。在生物学和医学研究的系统生物学方法随着高通量测序技术的应用,使人们收集到更多的分子水平相关信息,主要包括基因组学、转录组学、蛋白质组学和代谢组学等。
组学数据复杂多样,包括了参与代谢反应的反应物,产物,相应的酶,及该反应的可逆性等数据信息,构成了数据量巨大的复杂生物网络,而对于数据量巨大的组学模型和错综复杂的生物机理研究,需要借助可视化的系统,直观理解复杂代谢网络,从而观察其中隐含的生物学意义。如何有效整合多组学数据,从中抽取具有生物学意义的信息,是一个十分具有挑战性的问题。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种基于图论和贪婪算法挖掘组学数据的方法,利用拓扑学方法挖掘组学数据的重要特征,对后续生物学和医学领域的研究具有重要意义。
为实现本发明的目的所采用的技术方案是:
一种基于图论和贪婪算法挖掘组学数据的方法,包括以下步骤:
S1.利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;
S2.将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;
S3.以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;
S4.对网络拓扑学结构进行解析。
作为一个优选的技术方案,所述对通路差异分布进行基因组尺度可视化的方法如下:
利用统计学差异性分析计算出组学对象数据中对应基因的差异性,将差异性数据归一化处理,以基因组尺度的代谢网络总图为底板,将归一化后的差异性数据与colormap相偶联,通过不同颜色的变化呈现组学所涉及代谢产物的通路分布和差异性。
作为一个优选的技术方案,所述基因组尺度的代谢网络总图根据反应构成的代谢网络,提前规定每个基因、化合物的坐标,通过计算机进行绘制。
作为一个优选的技术方案,所述将差异性数据归一化处理,是将差异性数据按下式映射至0~1,设定渐变颜色,将数据和颜色一一对应,构建图形绘制的colormap;
式中,x为原始数据,xmin为一组数据的最小值,xmax为一组数据的最大值,所得结果X即为归一化后数据。
作为一个优选的技术方案,所述邻接矩阵的搭建方法如下:
通过KEGG数据库的API,获取组学数据包含的所有酶促反应,以“→”拆分反应,逐一拿出反应物和生成物,以反应中反应物为行,生成物为列,归一化的差异性数据为权重,建立邻接矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954038.2/2.html,转载请声明来源钻瓜专利网。