[发明专利]基于Spark的大规模天文数据天区覆盖生成方法有效
| 申请号: | 201710462993.8 | 申请日: | 2017-06-19 |
| 公开(公告)号: | CN107491471B | 公开(公告)日: | 2020-05-22 |
| 发明(设计)人: | 熊聪聪;田祖宸;赵青;史艳翠;王丹;苏静 | 申请(专利权)人: | 天津科技大学 |
| 主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/182 |
| 代理公司: | 北京慕达星云知识产权代理事务所(特殊普通合伙) 11465 | 代理人: | 崔自京 |
| 地址: | 300222 天津市河*** | 国省代码: | 天津;12 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明涉及一种基于Spark的大规模天文数据天区覆盖生成方法,其主要技术特点是:使用Spark的map算子并结合HEALPix层次化球面索引方法,根据赤经、赤纬信息对数据逐条进行分块索引;使用Spark的map算子,利用位运算对当前层每条数据的HEALPix块号进行父块块号及子块块号的分割操作;使用Spark的combineByKey算子对所有区块进行聚合操作;以上操作进行反复迭代,直至满足迭代终止条件,得到天区覆盖生成后的数据。本发明本发明设计合理,能够在短时间内完成大规模天文数据的天区覆盖生成,为实现海量天文数据的快速归档提供了支持,提升了对数据进行访问、处理的效率,此外本发明生成的结果可用于数据可视化,为研究人员直观地展现出星表中的天文数据在天区上的分布情况。 | ||
| 搜索关键词: | 基于 spark 大规模 天文 数据 覆盖 生成 方法 | ||
【主权项】:
一种基于Spark的大规模天文数据天区覆盖生成方法,其特征在于包括以下步骤:步骤1:从HDFS中读取天文数据,使用Spark的map算子并结合HEALPix层次化球面索引方法,根据赤经、赤纬信息对数据逐条进行分块索引,将每条数据中不相关的信息以唯一Id代替,并将各个HEALPix块号调整为键;步骤2:从最低层级开始,使用Spark的map算子,利用位运算对当前层每条数据的HEALPix块号进行父块块号及子块块号的分割操作,获得相应的父块号highOrder和子块号lowOrder,最后将每条数据的父块号highOrder调整为键;步骤3:使用Spark的combineByKey算子,对步骤2处理完成的所有区块进行聚合操作;如果聚合后的结果满足条件,则全部HEALPix块号由对应的父块号highOrder代替并且被带到下次迭代,不满足条件的数据会暂存至文件系统;步骤4:以上操作进行反复迭代,若满足结束条件,停止迭代,每次迭代输出至文件系统的数据即为最终完成天区覆盖生成后的数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津科技大学,未经天津科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710462993.8/,转载请声明来源钻瓜专利网。





