[发明专利]基于对象关联性评估的云存储方法及装置在审
| 申请号: | 201611106201.5 | 申请日: | 2016-12-05 |
| 公开(公告)号: | CN106776370A | 公开(公告)日: | 2017-05-31 |
| 发明(设计)人: | 张凯;朱东杰;李肖赫;董爽爽;陈金昌;于江兴;王琦;付国恒;戴苗苗;彭暄 | 申请(专利权)人: | 哈尔滨工业大学(威海);威海翰宝网络科技有限公司 |
| 主分类号: | G06F12/0862 | 分类号: | G06F12/0862;G06F3/06 |
| 代理公司: | 北京怡丰知识产权代理有限公司11293 | 代理人: | 孙小栋,于振强 |
| 地址: | 264209*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 对象 关联性 评估 存储 方法 装置 | ||
技术领域
本发明涉及,具体说是一种基于对象关联性评估的云存储方法及装置。
背景技术
随着互联网快速发展,数据呈爆炸式增长,在当前众多互联网应用场景中,80%的数据是小文件。相对于大文件,海量小文件的存取给文件系统带来巨大的压力,因此其存储效率成为云存储行业关注的重点问题。
然而,现有海量小文件存储方法存在数据写入的响应时间长,索引维护代价高的技术问题。
发明内容
本发明就是为了解决海量小文件存储方法写入响应时间长、索引维护代价高的技术问题,提供一种写入响应时间短、索引维护代价低的基于对象关联性评估的云存储方法及装置。
本发明的有益效果是,提升海量小文件在存储时的访问性能。针对在目前分布式存储系统中,对于海量小文件相关性评估方法的不足的不利影响,本发明首先提出了一种结合历史关联性与语义关联性的对象关联性评估模型。然后为提高预测的准确度,本发明提出回归分析的校正方法。其次借助于对象关联性评估数据进行对象预测分析,通过建立预取策略来减少小文件访问的响应时间。
为测试对象关联性评估预取模型中各参数的组合对缓存命中率的影响,使用HP的trace日志数据进行测试分析实验,将其用于对象关联性评估预取模型的有效性验证。
HP trace日志来源加利福尼伯克利大学惠普实验室。日志信息包含一个代理节点服务器(Proxy Node)在2010年12月份中前6天的用户文件请求操作数据。数据共28349条记录。数据格式如表1所示。
表1:
其中,请求路径由版本号、账户名、容器名、文件名四部分构成。上表第一条记录请求路径为/v1/trant/music/beau.mp3,对应版本号v1,账户名trant,容器名music,文件名beauty.mp3。
实验在单机上模拟对象时序访问操作,假定内存足够容纳每次的预取对象,同时本次预取对象在下一步对象访问操作后自动清除。测试使用机配置如表2所示。
表2:
由于数据本身存在多种类型的操作请求,而预取模型只要针对对象读操作,因此需要对数据进行必要的预处理。预处理内容如下:
(1)去除无效的操作请求记录(如HTTP状态码为404,505);
(2)去除非读对象操作(如账户或容器的读写操作,对象的写入更
新操作);
(3)提取所需特征并规格化,去除冗余特征。所需有效特征包括账户名(account)、容器名(container)、文件名(object)以及时间戳(timestamp)。
经过预处理,剩余有效数据记录共20326条,去除无效数据记录1354条,去除非读对象操作数据记录5669条,有效数据记录中共7682个对象。各尺寸文件分布情况如图5所示。
以第一轮样本作为数据素材,记录了在不同监视窗口的操作数取值情况下,基于对象关联性预取算法取不同预取对象数时的性能比较如图6示。
由图6可知,随着监视窗口的操作数下限的增长,五条曲线对应的缓存命中率呈上升趋势,并且由预取文件数目上限的增长带来的缓存命中率的大小差异逐渐缩小。同时,随着预取文件数目上限的增长,缓存命中率的增长趋势逐渐放缓。监视窗口操作数下限的设定本身会将原本有关联性的对象分别划分到无关的子访问序列中,而通过增大这一设定参数的大小,可以将更多具有关联性的对象划分到同一子访问序列中,挖掘出更多潜在的对象关联性。随着窗口大小增长,缓存命中率的增长趋势逐渐放缓,在窗口大小在8的时候到最大命中率,窗口大小对对象关联性划分的有利趋向性达到饱合。从预取文件数目上限增长到3以后,在窗口大小为8的情况下,预取文件数目上限的增长并未带来过多缓存命中率的增长而是将缓存命中率维持在一个相对稳定范围内。
通过数据的统计分析,实验将窗口大小设为8而预取文件数目上限设为4。以该参数设定为基础,结合第1轮的实验数据进行余下3轮的抽样实验。相应权重的校正数据如表3所示。
表3:
由表3的表格中第4轮校正的权重数据更新公式。返回第1轮样本进行测试,测试结果与最初首轮样本测试结果对比如图7所示。从图7可知,随着窗口大小的增长,缓存命中率呈上升趋势。当窗口较小时,权值修正后的对象关联性评估模型相对原始情况有较高的缓存命中率。权值修正后,通过对权重的重分配,语义相关性一定程度上弥补了因窗口较小引起的时序相关性误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(威海);威海翰宝网络科技有限公司,未经哈尔滨工业大学(威海);威海翰宝网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611106201.5/2.html,转载请声明来源钻瓜专利网。





