[发明专利]基于Hadoop的电信业务小文件存储系统及方法在审
申请号: | 201510145487.7 | 申请日: | 2015-03-31 |
公开(公告)号: | CN104778229A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 孟庆民;闫怀礼;朱卫平;曾桂根;吴晓富 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 电信业务 文件 存储系统 方法 | ||
技术领域
本发明涉及电信大数据存储领域,具体是基于Hadoop的电信业务小文件存储系统及方法。
背景技术
随着通信技术的不断发展,电信业务所产生的数据量在以爆炸性的速度持续增长。以中国移动为例,2014年其日均产生10TB的话单数据量、100TB的信令数据量,而且随着4G的大规模建设,未来的电信业务数据量增长将更加迅猛。此外,随着电信行业业务的多元化,数据种类也越来越丰富,各种业务每天都会产生大量的结构化数据(上网记录、话单、系统日志)、半结构化数据(HTML 文件、XML文件)、非结构化数据(图片、音频、视频),这些海量异构数据对于存储系统的兼容性、容量及性能均提出了极高的要求,传统的IOE架构(由IBM的小型机、Oracle的数据库、EMC的存储设备组成)已难以满足。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构,用户可利用Hadoop集群的优势开发分布式程序来进行高速运算和存储。HDFS为海量数据提供了访问和存储方法,Hadoop的出现很好的解决了大数据的存储问题。目前,中国移动、中国电信、中国联通均相继部署了基于Hadoop的分布式数据处理系统。然而通过实际应用我们发现,电信业务所产生的上网记录、图片等文件大小仅为几十到上百字节,海量小文件(文件尺寸小于HDFS规定的块大小)对于Hadoop的性能带来严重影响。具体来讲,HDFS将每个文件、块(block)或目录的元数据信息均以对象的形式存储在NameNode的内存中,每个元数据对象约占150个字节的内存空间,如果存储一亿个小文件,则NameNode大约需要14GB的内存空间,这些海量的元数据信息将会对NameNode的内存空间造成极大的消耗。其次,系统在访问大量小文件时,HDFS不仅需要频繁访问NameNode以获取DataNode的定位信息,还需要不断地在不同DataNode间跳转,这些都严重影响HDFS的整体性能。
随着电信业务范围的不断扩展,HDFS在电信业的应用面临瓶颈。虽然HDFS在大文件读写时具有很高的性能,但当有海量小文件频繁写入时,系统的性能较低。业界目前及下一步的研究重点是对现有的分布式文件存储系统进行改进,以提升系统对海量小文件的存取性能。解决HDFS对海量小文件的存储问题已成为业界共识。
发明内容
针对HDFS在处理电信业海量小文件所遇到的瓶颈和问题,本发明提出一种基于Hadoop的电信业务小文件存储系统及方法。
基于Hadoop的电信业务小文件存储系统,包括依次相连的数据采集单元、数据传输单元和HDFS,所述数据传输单元和HDFS之间还设有文件预处理单元,包括主服务器和分布式并行小文件处理服务器,分布式并行小文件处理服务器根据处理文件的类型分为非结构化小文件处理服务器、半结构化小文件处理服务器和结构化小文件处理服务器;所述主服务器用来判断要存储的文件的大小,分布式并行小文件处理服务器用于对小文件进行存储和合并。
一种基于Hadoop的电信业务小文件存储方法,包括以下步骤:
当用户文件通过数据传输单元上传至文件预处理单元时,主服务器判断该文件的大小,若文件大于128M,则直接写入HDFS,否则,主服务器将包含非结构化数据的文件转发至非结构化小文件处理服务器,将包含结构化数据的文件转发至结构化小文件处理服务器,将包含半结构化数据的文件转发至半结构化小文件处理服务器;
分布式并行小文件处理服务器利用SequenceFile 容器对非结构化小文件、半结构化小文件和结构化小文件分别进行合并和建立索引;
分布式并行小文件处理服务器判断合并后的文件大小,若文件大于128M,则将该文件以文件名做key,相应的文件内容为value写入HDFS文件系统,并删除分布式并行小文件处理服务器内已处理的文件。
每个经小文件合并后超过128M的文件直接存入HDFS文件系统。
本发明可以很好的解决目前电信业海量异构小文件存储与读取所面临的问题,并具有以下优点:
1)利用SequenceFile容器对小文件进行合并,实施便捷。
2)分布式并行小文件处理服务器不仅可以解决电信业海量异构小文件的分类合并问题,还可以根据具体业务类型对小文件处理服务器数量进行扩展,系统适应性强,存储效率高。
3)数据读取过程中,首先对分布式并行小文件处理服务器进行数据扫描和读取,再对HDFS文件系统进行扫描和文件分离,小文件读取效率高。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510145487.7/2.html,转载请声明来源钻瓜专利网。