[发明专利]Hadoop分布式文件系统针对日志型小文件的存储和处理方法有效
申请号: | 201510137574.8 | 申请日: | 2015-03-26 |
公开(公告)号: | CN104731921B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 徐锐;刘斌;台宪青 | 申请(专利权)人: | 江苏物联网研究发展中心;北京科电高技术公司;中国科学院国有资产经营有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 无锡市大为专利商标事务所(普通合伙)32104 | 代理人: | 曹祖良,韩凤 |
地址: | 214135 江苏省无锡市新*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及计算机HDFS分布式文件系统领域,公开了一种HDFS针对日志型小文件的存储和处理方法,将文件按物理位置就近合并,同时使用Copy‑On‑Write机制优化小文件的读写。具体为,将日志型小文件按照物理路径就近合并,客户端读写日志型小文件时先从名字节点NameNode读取合并文件和合并文件索引的元数据Metadata信息,然后根据合并文件索引从合并文件中读写各个日志型小文件数据。本发明针对日志型小文件,提出了一种新的处理方法,该方法将小文件metadata的内存负担从NameNode转移到了客户端,有效的解决了HDFS处理大量小文件的低效问题。客户端缓存小文件metadata也使得小文件的访问得到加速,多次连续访问物理位置临近的小文件时无需向NameNode请求metadata。 | ||
搜索关键词: | hadoop 分布式 文件系统 针对 日志 文件 存储 处理 方法 | ||
【主权项】:
Hadoop分布式文件系统针对日志型小文件的存储和处理方法,所述Hadoop分布式文件系统HDFS包括一个Hadoop集群,集群中包含一个名字节点和多个数据节点,多个客户端通过客户端库访问Hadoop集群存储的文件,其特征在于:所述Hadoop集群中的日志型小文件按照物理路径就近合并,客户端读写日志型小文件时先从名字节点读取合并文件和合并文件索引的元数据信息,然后根据合并文件索引从合并文件中读写各个日志型小文件数据;其中,所述日志型小文件的合并方法为:同一目录下的日志型小文件被合并为一个文件,称为合并文件MergeFile;日志型小文件的元数据被顺序存入一个文件,称为合并文件索引MergeIndex;合并文件与合并文件索引位于原HDFS目录下,采用保留的文件名命名;MergeFile支持追加、修改、删除操作,追加、修改、删除的原子操作单位都是日志型小文件;MergeFile修改过后,MergeIndex也做出对应改变,文件的追加、修改、删除均通过向合并文件索引中追加文件项记录完成;其中,所述日志型小文件的合并发生于文件写入结束,即,以写方式打开文件后关闭文件时进行文件合并,合并操作分为三类情形:(1)当前写入的文件是新创建的文件,此时文件被追加至合并文件末尾,在合并文件索引文件中同时追加一条记录,记录包括当前文件的文件名、在合并文件中的偏移量、文件大小、文件所属用户、权限、删除标记在内的元数据;(2)当前写入的文件是已经存在的文件,并确有数据修改发生,此时先从MergeFile中删除原文件,再将写入的文件追加至MergeFile;(3)当前写入的文件是已经存在的文件,但是没有数据修改,此时直接抛弃当前文件。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏物联网研究发展中心;北京科电高技术公司;中国科学院国有资产经营有限责任公司,未经江苏物联网研究发展中心;北京科电高技术公司;中国科学院国有资产经营有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510137574.8/,转载请声明来源钻瓜专利网。