[发明专利]基于云计算的大规模高光谱数据张量环分解随机抽样方法在审
| 申请号: | 202111502070.3 | 申请日: | 2021-12-09 |
| 公开(公告)号: | CN114201453A | 公开(公告)日: | 2022-03-18 |
| 发明(设计)人: | 吴泽彬;宁伟凯;张毅;孙晋;徐洋 | 申请(专利权)人: | 南京理工大学 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/16;G06F16/172;G06F16/182;G06V10/40;G06V10/94 |
| 代理公司: | 南京理工大学专利中心 32203 | 代理人: | 陈鹏 |
| 地址: | 210094 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 计算 大规模 光谱 数据 张量 分解 随机 抽样 方法 | ||
本发明公开了一种基于云计算的大规模高光谱数据张量环分解随机抽样方法,包括以下步骤:读取大规模高光谱张量数据,对其进行格式转换和划分;根据头文件计算抽样数据的数量J,高斯分布初始化n个初始核心张量coreInitialize,将J和coreInitialize广播至每一个计算节点;在计算节点中直方图抽样J次生成张量数据坐标idx1,根据idx1对高光谱张量数据进行抽样;根据idx1对核心张量G抽样生成抽样张量,根据计算节点确定未抽样核心张量Z,最小二乘法计算更新核心张量G;判断到迭代终止条件,迭代结束后,将计算结果核心张量G存储在云计算平台中。本发明能够对大规模高光谱张量数据进行快速、准确的张量环分解。
技术领域
本发明属于高光谱数据处理领域,特别是一种基于云计算的大规模高光谱数据张量环分解随机抽样方法。
背景技术
张量数据分解是高光谱数据应用的一个重要研究方向。高光谱数据的处理和分解多采用张量形式数据表示,这种表示方法可以最大限度的保留原始数据的时空特征。但由于张量数据多模态、维度高的特性,往往在实际的张量数据分解中存在单机瓶颈,常规计算机难以处理大规模的高光谱张量数据。张量数据tucker分解是大规模高光谱张量数据常用的方法。这种方法将张量数据分解为若干个低秩核心张量,其结果可以更好地反映张量数据的维度特征,便于人们进一步对张量数据进行处理。与小规模矩阵数据相比,大规模高光谱张量数据tucker分解有着以下难点:1)数据量大,不易读入内存进行全局的分解;2)数据维度高,处理过程计算次数多;3)数据索引大,往往超过单个文件系统最大文件大小;4)分解结果不唯一,张量数据tucker分解的结果多样,收敛判定较为困难;5)张量秩分布未定。因此针对常规矩阵的方法处理张量数据不能满足大规模高光谱张量数据处理的需要,需要针对大规模高光谱张量数据的特点,在云计算,分布式文件系统,随机化方法等技术的基础上,进一出发展分布式大规模高光谱张量数据分解技术,进而更有效处理和存储传统矩阵中很难处理的大规模张量高光谱数据。
近几年来,随着计算机存储技术和计算能力的发展,分布式计算技术作为大规模高光谱张量数据存储和处理的有效技术,是一种并行分块进行分解计算的方法,突破单机计算瓶颈,可计算更大规模的数据。此外,其计算过程是同构同时进行计算,利用多个计算节点和资源,以内存和算力换取时间,达到加速计算的目的。为了处理大规模复杂张量数据,已有学者采用MapReduce、Graph等分布式计算框架处理张量数据,加速处理张量数据。
但是上述方法依然存在问题:1)在计算节点中,仍然受制于该计算节点的内存和存储资源,处理大规模高光谱张量数据仍具有一定限制。2)虽然利用分布式计算技术计算大规模高光谱张量数据的tucker分解是目前大规模数据最受欢迎的处理方法之一。但是,还没有一种方法可以处理不同规模的数据。特别对于小规模数据,分布式存储和计算也没有优势。3)分解过程中张量秩的确定是一大难题,传统的张量秩分布是作为张量数据的先验信息,但是实际的数据计算中,张量数据的秩是未知的,需要在分解过程中确定,计算成本大。
发明内容
本发明的目的在于提供一种基于云计算的大规模高光谱数据张量环分解随机抽样方法。
实现本发明目的的技术解决方案为:一种基于云计算的大规模高光谱数据张量环分解随机抽样方法,包括以下步骤:
步骤1,读取大规模高光谱张量数据,对其进行格式转换和划分;生成张量数据头文件,对数据文件进行分块部署到云平台;
步骤2,根据头文件计算抽样数据的数量J,高斯分布初始化n个初始核心张量coreInitialize,将J和coreInitialize广播至每一个计算节点;
步骤3,抽样张量数据;在计算节点中直方图抽样J次生成张量数据坐标idx1,将idx1坐标按数据存储排序为idx2,按idx2的顺序读取并映射为idx1顺序生成抽样张量
步骤4,根据idx1对核心张量G抽样生成抽样张量根据计算节点确定未抽样核心张量Z,最小二乘法计算更新核心张量G;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111502070.3/2.html,转载请声明来源钻瓜专利网。





