[发明专利]一种分布式小文件的存储、读取方法、装置及存取系统在审
申请号: | 201710907252.6 | 申请日: | 2017-09-29 |
公开(公告)号: | CN107729432A | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 牛冰茹 | 申请(专利权)人: | 浪潮软件股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 文件 存储 读取 方法 装置 存取 系统 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种分布式小文件的存储、读取 方法、装置及存取系统。
背景技术
随着互联网的不断普及与发展,数据呈现爆炸式增长,社交网络、电子 商务等各种应用往往能产生亿级、十亿级甚至是百亿级的小文件。如何基于 分布式文件系统(Hadoop Distributed File System,HDFS)实现这些小文件的存 取成为现如今比较关注的问题。
目前,在存储这些小文件时,只是对这些小文件的内容进行存储。但是, 当需要读取某个或者某些小文件的内容时,则需要遍历所有的内容才能读取 到所需的内容,导致读取效率较低。
发明内容
本发明实施例提供了一种分布式小文件的存储、读取方法、装置及存取 系统,能够提高读取效率。
第一方面,本发明实施例提供了一种分布式小文件的存储方法,创建 Hbase表;还包括:
针对于待存储的每一个小文件,均执行:
确定当前小文件的内容、唯一标识以及元数据信息;
根据所述元数据信息,将所述当前小文件的所述内容存储至相应的序列 化文件SequenceFile中;
确定所述内容在相应的所述SequenceFile中的起始偏移和终止偏移;
确定所述SequenceFile的位置信息;
将所述唯一标识、所述起始偏移、所述终止偏移以及所述SequenceFile 的位置信息对应存储在所述Hbase表中。
优选地,
所述将所述唯一标识、所述起始偏移、所述终止偏移以及所述 SequenceFile的位置信息对应存储在所述Hbase表中,包括:
将所述唯一标识、所述起始偏移、所述终止偏移、所述SequenceFile的 位置信息以及所述元数据信息对应存储在所述Hbase表中。
优选地,
所述根据所述元数据信息,将所述当前小文件的所述内容存储至相应的 序列化文件SequenceFile中,包括:
根据预设的存储规则,判断是否存在与所述元数据信息相对应的所述 SequenceFile;
如果是,则将所述当前小文件的所述内容追加至所述SequenceFile中;
如果否,则创建与所述元数据信息相对应的所述SequenceFile,并将所 述当前小文件的所述内容存储至创建出的所述SequenceFile中。
第二方面,本发明实施例提供了一种分布式小文件的读取方法,包括:
接收携带有至少一个检索词的读取请求;
从Hbase表中查找与所述至少一个检索词相对应的至少一个唯一标识;
从所述Hbase表中查找与所述至少一个唯一标识相对应的起始偏移、终 止偏移以及SequenceFile的位置信息;
根据查找的所述SequenceFile的位置信息,从所述SequenceFile中读取 由所述起始偏移至所述终止偏移的内容。
优选地,
所述从Hbase表中查找与所述至少一个检索词相对应的至少一个唯一标 识,包括:
从所述Hbase表中查找包括有所述至少一个检索词的至少一个元数据信 息;从所述Hbase表中查找与所述至少一个元数据信息相对应的所述至少一 个唯一标识。
第三方面,本发明实施例提供了一种分布式小文件的存储装置,包括:
创建单元,用于创建Hbase表;
确定单元,用于针对于待存储的每一个小文件,确定当前小文件的内容、 唯一标识以及元数据信息;
存储单元,用于根据所述元数据信息,将所述当前小文件的所述内容存 储至相应的序列化文件SequenceFile中;
索引单元,用于确定所述内容在相应的所述SequenceFile中的起始偏移 和终止偏移;确定所述SequenceFile的位置信息;将所述唯一标识、所述起 始偏移、所述终止偏移以及所述SequenceFile的位置信息对应存储在所述 Hbase表中。
优选地,
所述索引单元,用于将所述唯一标识、所述起始偏移、所述终止偏移、 所述SequenceFile的位置信息以及所述元数据信息对应存储在所述Hbase表 中。
优选地,
所述存储单元,用于根据预设的存储规则,判断是否存在与所述元数据 信息相对应的所述SequenceFile;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件股份有限公司,未经浪潮软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710907252.6/2.html,转载请声明来源钻瓜专利网。