[发明专利]一种基于图论和贪婪算法挖掘组学数据的方法在审

申请号：	202110954038.2	申请日：	2021-08-19
公开（公告）号：	CN113793643A	公开（公告）日：	2021-12-14
发明（设计）人：	王敏;夏梦雷;王頔;闫欣瑶;夏艺铭;郑宇;申雁冰	申请（专利权）人：	天津科技大学
主分类号：	G16B40/00	分类号：	G16B40/00
代理公司：	天津市三利专利商标代理有限公司 12107	代理人：	韩新城
地址：	300457 天津市滨***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于贪婪算法挖掘数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于图论和贪婪算法挖掘组学数据的方法。所述方法包括步骤：利用统计学方法，计算组学对象差异性，对通路差异分布进行基因组尺度可视化；将组学对象转化为对应的基元反应，以反应物为起点，生成物为终点，构建由化合物组成的邻接矩阵，搭建代谢网络；以显著差异点为中心，运用贪婪算法进行网络精简，获得差异点之间的联通关系；对网络拓扑学结构进行解析。本发明整合了统计学和图论方法，实现了组学数据的有效降维和可视化，实现组学数据的准确挖掘。

技术领域

本发明涉及组学数据挖掘技术领域，特别是涉及一种基于图论和贪婪算法挖掘组学数据的方法。

背景技术

随着科学研究的不断发展，当代科学越来越认识到整体或系统的重要性，有些问题不能简单成局部事件将其处理，因为当一个独立部分放在一个高级结构中时，他们之间会因产生动态的相互作用产生不同的表现。这就有了系统生物学的最新定义：不同于以往仅仅关心个别的基因和蛋白质的分子生物学，在于研究细胞信号传导和基因调控网路、生物系统组成之间相互关系的结构和系统功能。在生物学和医学研究的系统生物学方法随着高通量测序技术的应用，使人们收集到更多的分子水平相关信息，主要包括基因组学、转录组学、蛋白质组学和代谢组学等。

组学数据复杂多样，包括了参与代谢反应的反应物，产物，相应的酶，及该反应的可逆性等数据信息，构成了数据量巨大的复杂生物网络，而对于数据量巨大的组学模型和错综复杂的生物机理研究，需要借助可视化的系统，直观理解复杂代谢网络，从而观察其中隐含的生物学意义。如何有效整合多组学数据，从中抽取具有生物学意义的信息，是一个十分具有挑战性的问题。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种基于图论和贪婪算法挖掘组学数据的方法，利用拓扑学方法挖掘组学数据的重要特征，对后续生物学和医学领域的研究具有重要意义。

为实现本发明的目的所采用的技术方案是：

一种基于图论和贪婪算法挖掘组学数据的方法，包括以下步骤：

S1.利用统计学方法，计算组学对象差异性，对通路差异分布进行基因组尺度可视化；

S2.将组学对象转化为对应的基元反应，以反应物为起点，生成物为终点，构建由化合物组成的邻接矩阵，搭建代谢网络；

S3.以显著差异点为中心，运用贪婪算法进行网络精简，获得差异点之间的联通关系；

S4.对网络拓扑学结构进行解析。

作为一个优选的技术方案，所述对通路差异分布进行基因组尺度可视化的方法如下：

利用统计学差异性分析计算出组学对象数据中对应基因的差异性，将差异性数据归一化处理，以基因组尺度的代谢网络总图为底板，将归一化后的差异性数据与colormap相偶联，通过不同颜色的变化呈现组学所涉及代谢产物的通路分布和差异性。

作为一个优选的技术方案，所述基因组尺度的代谢网络总图根据反应构成的代谢网络，提前规定每个基因、化合物的坐标，通过计算机进行绘制。

作为一个优选的技术方案，所述将差异性数据归一化处理，是将差异性数据按下式映射至0～1，设定渐变颜色，将数据和颜色一一对应，构建图形绘制的colormap；