[发明专利]在分布式存储系统中去除文件的重复的装置及方法无效
| 申请号: | 201080046727.3 | 申请日: | 2010-11-04 |
| 公开(公告)号: | CN102834803A | 公开(公告)日: | 2012-12-19 |
| 发明(设计)人: | 金庆洙;千宰范;金周铉;辛奉植;陈奉周;金亨哲;金荣奎;崔宣;李九镛 | 申请(专利权)人: | 皮斯佩斯有限公司 |
| 主分类号: | G06F9/06 | 分类号: | G06F9/06;G06F15/16 |
| 代理公司: | 北京康盛知识产权代理有限公司 11331 | 代理人: | 张良 |
| 地址: | 韩国京畿*** | 国省代码: | 韩国;KR |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 分布式 存储系统 去除 文件 重复 装置 方法 | ||
技术领域
本发明涉及在分布式存储系统(Distributed Storage System,DSS)中去除文件的重复的装置及方法,更详细地,涉及一种在分布式存储系统的系统运行过程中利用哈希算法、比特级别比较等来进行活动文件(active file)的重复检查并去除文件的重复的装置及方法。
背景技术
分布式存储系统(Distributed Storage System)或并行存储系统(Parallel Storage System)是将多台存储装置虚拟化为一台存储装置的存储系统。在该分布式存储系统中,在存储一个文件时,分在虚拟化的多台存储装置中存储使用,而不是存储在一台存储装置。
就像以往的磁盘阵列(Redundant Array of Inexpensive Devices,RAID)存储装置将多个硬盘整合为一个存储装置,构成更大、更快、更稳定的存储装置,分布式存储系统也能够将多台存储装置构成为一台存储装置,提供更大、更快、更稳定的存储系统功能。
该分布式存储系统技术在云计算(Cloud Computing)等中作为核心技术利用,构成分布式存储系统的存储装置的数量越增加,容量和性能也成正比地增加,使总营造成本(Total Cost of Owner-ship)的费用对比效果达到最大化,因此能够提供以往的存储系统无法提供的高水平的性能和扩展性。
与此相关,图1中例示出根据现有技术的分布式存储系统的结构。
参照图1,一般来说,分布式存储系统由将各个文件分为多个并分布存储的多个存储服务器(这相当于虚拟的一个存储服务器)110和生成对于上述文件的元数据来进行管理的元数据服务器120等构成,当至少一个客户端130通过网络等请求预定文件的输入/输出时,元数据服务器120提供要分布存储/存储有相应文件的存储服务器110的信息,由此,客户端130访问该存储服务器110,执行相应文件的输入/输出来实现服务。(作为参考,本发明中的术语“文件”指的是由客户端浏览或请求的内容,是包含文件、数据、内容、组块(chunk)等的含义。)
另一方面,在这种分布式存储系统中,为了有效地管理文件,而将多个存储服务器分成运行服务器和备份服务器,并将当前运行中的活动(active)文件(数据、内容)保管于性能好的运行服务器,将当前不运行的备份(backup)文件保管于性能相对低的备份服务器,从而有效利用有限的存储介质。
但是,根据现有技术的文件管理方法,由于在实际运行系统中不执行文件的重复检查而存储于运行服务器进行运行,导致因重复的文件而要增设存储器(storage)和系统,由此,存在系统设备费用增加、系统运行所需的人力及运行费用也增加的问题。
并且,在备份(Backup)、信息生命周期管理(Information Lifecycle Management,ILM)、远程同步(Remote Synchronization)、镜像(Mirror)、归档(Archive)、复制(Replication)等的系统关联时,也由于重复的文件移动,因而存在浪费个别系统的存储空间且浪费网络资源的问题。
发明内容
技术问题
本发明是为了解决如上所述的问题而提出的,本发明的目的在于提供一种在分布式存储系统中利用哈希算法、比特级别比较等来执行活动文件(active file)的重复检查并去除文件的重复的装置及方法。
本发明的再一目的在于,提供一种在系统运行过程中去除重复文件(数据、内容)来防止产生因重复的文件而要增设存储器(storage)和系统等不必要问题的文件重复去除装置及方法。
本发明的另一目的在于,提供一种在备份(Backup)、信息生命周期管理(Information Lifecycle Management,ILM)、远程同步(Remote Synchronization)、镜像(Mirror)、归档(Archive)、复制(Replication)等的系统关联时避免传输重复的文件来避免增设个别系统的不必要存储器(storage)并防止网络资源浪费的文件重复去除装置及方法。
本发明的另一目的在于,提供一种在分布式存储系统中检查并去除文件的重复时支持各种形态的哈希算法,可以以文件单位和/或组块(chunk)单位来检查并去除文件的重复,对应系统整体、每个容量(volumn)、每个关联系统来检查并去除文件的重复的装置及方法。
本发明的另一目的在于,提供一种能够有效利用如上所述的文件重复去除装置及方法的分布式存储系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于皮斯佩斯有限公司,未经皮斯佩斯有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080046727.3/2.html,转载请声明来源钻瓜专利网。





