[发明专利]一种基于图论和贪婪算法挖掘组学数据的方法在审
申请号: | 202110954038.2 | 申请日: | 2021-08-19 |
公开(公告)号: | CN113793643A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 王敏;夏梦雷;王頔;闫欣瑶;夏艺铭;郑宇;申雁冰 | 申请(专利权)人: | 天津科技大学 |
主分类号: | G16B40/00 | 分类号: | G16B40/00 |
代理公司: | 天津市三利专利商标代理有限公司 12107 | 代理人: | 韩新城 |
地址: | 300457 天津市滨*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 贪婪 算法 挖掘 数据 方法 | ||
1.基于图论和贪婪算法挖掘组学数据的方法,其特征在于,包括步骤:
S1.利用统计学方法,计算组学对象差异性,对通路差异分布进行基因组尺度可视化;
S2.将组学对象转化为对应的基元反应,以反应物为起点,生成物为终点,构建由化合物组成的邻接矩阵,搭建代谢网络;
S3.以显著差异点为中心,运用贪婪算法进行网络精简,获得差异点之间的联通关系;
S4.对网络拓扑学结构进行解析。
2.根据权利要求1所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述对通路差异分布进行基因组尺度可视化的方法如下:
利用统计学差异性分析计算出组学对象数据中对应基因的差异性,将差异性数据归一化处理,以基因组尺度的代谢网络总图为底板,将归一化后的差异性数据与colormap相偶联,通过不同颜色的变化呈现组学所涉及代谢产物的通路分布和差异性。
3.根据权利要求1所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述基因组尺度的代谢网络总图根据反应构成的代谢网络,提前规定每个基因、化合物的坐标,通过计算机进行绘制。
4.根据权利要求2所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述将差异性数据归一化处理,是将差异性数据按下式映射至0~1,设定渐变颜色,将数据和颜色一一对应,构建图形绘制的colormap;
式中,x为原始数据,xmin为一组数据的最小值,xmax为一组数据的最大值,所得结果X即为归一化后数据。
5.根据权利要求2所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述邻接矩阵的搭建方法如下:
通过KEGG数据库的API,获取组学数据包含的所有酶促反应,以“→”拆分反应,逐一拿出反应物和生成物,以反应中反应物为行,生成物为列,归一化的差异性数据为权重,建立邻接矩阵;
利用计算机,对邻接矩阵进行绘图,通过图论的方式将所有关联化合物进行可视化联通,搭建代谢网络,即可将所有存在联系的化合物进行可视化。
6.根据权利要求1所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述的贪婪算法的处理过程如下:
以差异点为起点,依次计算至其它差异点的最短路径,如果最短路径不包含差异点,则标记该两差异点为连通,并记录非差异点连通关系;所有的差异点都计算完毕后,删除所有非差异点的连通关系。
7.根据权利要求1所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述的拓扑学结构包括节点的pagerank系数、特征向量中心度以及差异点之间的最短路径、最大通量路径;
通过PageRank以反映每个节点在网络连接结构中的重要程度,通过所述特征向量中心度反反映一个节点的重要性取决于相邻节点的数量和重要性,通过最短路径和最大通量路径反映两个基因之间最精简的连接方式。
8.根据权利要求7所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,其中,所述的Pagerank系数的表述式如下:
p1,p2,…,pN是节点个数,q为阻尼因子;,PageRank(pj)是pi作为反应物的数量,L(pj)是pj生成物的数量;
所述的特征向量中心度计算方法如下:
式中,CECi为节点i的特征向量中心度,反应一个节点的重要性取决于相邻节点的数量和相邻节点的重要性,可将单个节点的影响力看成其它节点的线性组合,度数越高,说明该点在网络中越重要;c为比例常数;n为节点个数;aij为i相邻节点个数;j为初始值;x为原始数据。
9.根据权利要求1-8任一项所述基于图论和贪婪算法挖掘组学数据的方法,其特征在于,所述的组学对象包括转录组、蛋白组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954038.2/1.html,转载请声明来源钻瓜专利网。