[发明专利]一种基于复杂网络的海洋观测大数据可视化分析方法有效
申请号: | 201910083507.0 | 申请日: | 2019-01-29 |
公开(公告)号: | CN109947879B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 孙鑫;罗新艳;董军宇 | 申请(专利权)人: | 中国海洋大学 |
主分类号: | G06F16/29 | 分类号: | G06F16/29 |
代理公司: | 青岛海昊知识产权事务所有限公司 37201 | 代理人: | 邱岳 |
地址: | 266100 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于复杂网络的海洋观测大数据可视化分析方法,包括将原始海洋观测大数据进行网格划分,将网格内的日均数据构建成单高斯和混合高斯模型,得到以概率特征向量代表的节点;确定单、多高斯网络内任意两节点之间的相似性,得到相似性矩阵;设定阈值,得到邻接矩阵,根据邻接矩阵对每一个节点计算其度数、聚类系数、节点介数,并在双对数坐标或上可视化或绘制在地图上。本发明首次将混合高斯模型与复杂网络理论结合,提出了一种海洋观测大数据分析和可视化的方法,最大限度地还原了海洋运动反映在数据上的波动,并利用模型参数来表达高维海洋数据,不仅解决了基于皮尔逊相似性构建的网络模型只能度量时序数据的缺点,在计算速度上也有所提升。 | ||
搜索关键词: | 一种 基于 复杂 网络 海洋 观测 数据 可视化 分析 方法 | ||
【主权项】:
1.一种基于复杂网络的海洋观测大数据的度分布可视化分析方法,其特征在于包括以下步骤:1)海洋观测大数据的预处理下载NOAA提供的海洋观测大数据,所述的海洋观测大数据在经纬度上是具有Lat*Lon分辨率的日均数据,而Lat与Lon均为千级;将原始数据根据经纬度进行网格划分,使每个网格的经纬度均为2度,每个网格数据在年度上为一M*N*T的三维矩阵,其中M表示网格内的纬度分辨率,N表示网格内的经度分辨率,T表示时间维度,T的最小取值单位为天数;2)网络节点建模将网格内的日均数据构建成单高斯和混合高斯模型,以保留数据在年度上分布的动态性和随机性;假设有一随机变量X,若其分布服从期望为μ,方差为σ的高斯分布,则记之为N(x|μ,σ2),其概率密度函数如下式:
其中μ、σ分别为该分布的期望和标准方差,高斯分布可看成一个单高斯模型;用公式(一)拟合网格内日均数据,此时公式(一)内的x代表网格内的观测数据,拟合后网格内每日数据可用单高斯模型的μ、σ来表示,M*N*T的网格数据可转换为两个1*T的向量[μ1,μ2,...,μT]和[σ1,σ2,...,σT],将其称为单高斯概率特征向量,并用其代表单高斯网络中节点;混合高斯模型是由数个单高斯模型线性组合而成,每个单高斯模型称为混合模型中的一个分量(Component),混合高斯模型可表示为下式:
其中N(x|μi,σi)表示混合模型中第i个分量,μi和σi表示第i个分量的期望与协方差矩阵;混合高斯模型的概率密度函数表示为:
其中K表示混合高斯模型所包含分量的数量,
表示第i个分量对应的权重,且混合模型中各分量对应的权重之和为1;混合模型包含的分量数K需要人为指定,在保证模型中的高斯分布数量能精确地拟合网格内数据分布的基础上,考虑到实验的计算效率,将模型中高斯分布的数量K指定为3;利用混合高斯模型模拟网格内数据时,网格数据可以用公式(三)内的期望μi、协方差矩阵σi和权重
表示,则年度的数据可表示为3个1*K*T的概率特征向量,称为多高斯概率特征向量,此向量表示多高斯网络中节点;3)构建网络中的边在上一步骤之后,得到以概率特征向量代表的节点;为了构建网络中的边,需要度量节点之间的相似性,为了度量两概率特征向量之间的相似性,本发明引用贝叶斯定理,将特征向量属于另一向量的概率定义为它们之间的相似性,称为概率匹配;则单高斯网络中节点Q和节点V之间相似性p可通过下式计算:
公式(四)为单高斯概率匹配计算方式,其中qn和vn分别是单高斯网络节点Q和V中第n个网格数据拟合而成的单高斯模型的概率密度函数;其中μq和μv分别是qn和vn的均值,σq和σv分别是qn和vn的方差;由于混合高斯模型是由有限个单高斯模型线性组合而成的概率模型,因此本发明沿用以上单高斯概率匹配的计算方式来度量多高斯概率特征向量之间的相似性,将其相似性定义为向量内两两高斯分布相似性的乘积;在混合高斯网络中,以节点Q和V为例,将它们之间的相似性记为P,其计算公式如下:
其中qni是节点Q中由第n个网格数据拟合而成的混合高斯模型的第i个分量的概率密度函数,相应的,vjn是节点V中第n个网格数据拟合而成的混合高斯模型的第i个分量的概率密度函数,K为每个模型中分量数,本发明中指定为3,T为每个模型中时间序列的维度;考虑到多高斯网络节点中存在多个分量,对两模型之间每个分量的相似性进行多次乘积会造成数据下溢;为了解决这个问题,引用最大似然估计(maximum likelihood estimation,MLE)的思想,对公式(五)中的多项式乘积取对数;因此,多高斯概率匹配公式可进一步表示为:
根据公式(六)对两个多高斯概率特征向量内的多个分量相似性的对数求和可得多高斯网络中节点之间的相似性。通过公式(四)和公式(六)可确定单、多高斯网络内任意两节点之间的相似性,将其记录于矩阵内,得到相似性矩阵;接下来,需要设定阈值作为节点间是否存在边的依据,根据多位气候学家论证的结果:边密度ρ=0.01在t‑test中具有95%以上的置信度,结合边密度ρ来确定阈值,最终将网络中边密度设为ρ=0.01。边密度的定义是网络中实际存在的边与网络中可能存在的边的比值,将相似度与阈值比较,若相似度矩阵中元素值大于等于阈值,则将相应元素标为1,否则记为0,由此得到邻接矩阵。4)网络拓扑结构可视化分析节点的度是指与其直接相连的邻居个数,以δ(k)表示网络中度数为k的节点数占网络中总节点数的比例称为度分布,k的取值为网络中度的波动范围;节点的度分布是网络中节点度的总体描述,是从宏观上研究个体间关联的差异程度的一个指标。根据邻接矩阵对每一个节点计算其度数,将度分布δ(s)在双对数坐标上可视化,并将节点的度取对数后绘制在地图上。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国海洋大学,未经中国海洋大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910083507.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种航班追踪系统
- 下一篇:三维空间信息服务于城乡一体化管理异构数据融合方法