[发明专利]基于云计算的大规模高光谱数据张量环分解随机抽样方法在审
| 申请号: | 202111502070.3 | 申请日: | 2021-12-09 |
| 公开(公告)号: | CN114201453A | 公开(公告)日: | 2022-03-18 |
| 发明(设计)人: | 吴泽彬;宁伟凯;张毅;孙晋;徐洋 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/172;G06F16/182;G06V10/40;G06V10/94 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 计算 大规模 光谱 数据 张量 分解 随机 抽样 方法 | ||
1.一种基于云计算的大规模高光谱数据张量环分解随机抽样方法,其特征在于,包括以下步骤:
步骤1,读取大规模高光谱张量数据,对其进行格式转换和划分;生成张量数据头文件,对数据文件进行分块部署到云平台;
步骤2,根据头文件计算抽样数据的数量J,高斯分布初始化n个初始核心张量coreInitialize,将J和coreInitialize广播至每一个计算节点;
步骤3,抽样张量数据;在计算节点中直方图抽样J次生成张量数据坐标idx1,将idx1坐标按数据存储排序为idx2,按idx2的顺序读取并映射为idx1顺序生成抽样张量
步骤4,根据idx1对核心张量G抽样生成抽样张量根据计算节点确定未抽样核心张量Z,最小二乘法计算更新核心张量G;
步骤5,判断是否达到迭代停止条件,若达到则停止迭代,将此次迭代的计算结果核心张量G作为最终结果存储在云计算平台;若未达到,将核心张量G广播作为coreInitialize,跳到步骤2继续计算。
2.根据权利要求1所述的基于云计算的大规模高光谱数据张量环分解随机抽样方法,其特征在于,步骤1中,张量数据头文件的数据格式包括:数据文件数“file”、张量阶数“order”、张量每一阶的维度“dim”、张量每一阶的秩“rank”、数据类型“type”。
3.根据权利要求1所述的基于云计算的大规模高光谱数据张量环分解随机抽样方法,其特征在于,步骤1所述读取大规模高光谱张量数据,对其进行格式转换和划分;生成张量数据头文件,对数据文件进行分块部署到云平台,具体如下:
(1.1)对于n阶大规模高光谱张量数据A,其维度为I1×I2×…×In,张量秩分布rank为{r1,r2,…,rn},生成的张量数据头文件格式为:
分布式存储张量数据的文件数“file”=张量数据大小/4GB+1
张量数据的阶数“order”=n
张量数据每一阶的维度“dim”=I1,I2,…,In
张量每一阶的秩“rank”=r1,r2,…,rn或“null”
张量数据的数据类型“type”=double、float、int、short、unsigned int;
(1.2)对于张量数据A,数据划分方式具体如下:
令张量数据A中的元素的第i个索引坐标为dim[i-1]∈[0,Ii),则张量数据A中元素坐标为(dim[n-1],dim[n-2],…,dim[0]),保持dim[1]和dim[0]坐标不变进行切片,将元素坐标转化为(idx,dim[1],dim[0]);
其中,
将张量数据A划分为file个文件,前file-1个文件中第k个文件包含的数据范围为第file个文件中包含的数据范围为
(1.3)在分布式系统中上传命名规则和抽样数据方法,具体如下:
头文件命名为“数据名.hdr”,数据文件命名为“数据名_文件序号”,头文件和数据文件上传至分布式文件系统同一目录下;
抽样数据时,先根据头文件获取张量数据信息计算出所需数据的索引和文件序号,通过文件序号和索引抽取张量数据的特定元素。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111502070.3/1.html,转载请声明来源钻瓜专利网。





