[发明专利]存储系统中基于溯源信息的文件元数据查询方法与系统有效
申请号: | 201410199580.1 | 申请日: | 2014-05-12 |
公开(公告)号: | CN103970871B | 公开(公告)日: | 2017-06-16 |
发明(设计)人: | 冯丹;刘进军;华宇;彭斌;聂振华;黄大彰;蔡娟 | 申请(专利权)人: | 华中科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 华中科技大学专利中心42201 | 代理人: | 梁鹏 |
地址: | 430074 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储系统 基于 溯源 信息 文件 数据 查询 方法 系统 | ||
技术领域
本发明属于计算机数据存储技术领域,更具体地,涉及一种存储系统中基于溯源信息的文件元数据查询方法与系统。
背景技术
现在元数据的查询研究变的越来越重要,主要有两方面的原因,一是随着移动网络和云计算的发展,信息存储系统中的数据规模越来越大,用户、系统管理员很难管理和定位自己需要的文件,必须借助快速准确的查询系统来提高效率。另一方面,相比于传统的数据管理,在大数据的管理中更加注重数据分析,通过数据分析,用户或是管理员才能更好的把握数据的真实价值。数据分析需要大量的查询操作,在现代的存储系统中,就需要专门的文件元数据查询系统才能满足大数据中数据分析的需要。
现有的文件元数据的查询设计存在以下问题:
(1)有的系统利用DBMS来索引和查询元数据,没有关注查询请求的趋势,忽略了查询请求的局部性原理的利用,导致极差的查询速度,据测有的查询需要400-1000秒。
(2)有的系统利用树型的索引来加快查询。例如利用目录树来加快查询,但目录树只反映了文件的一维属性(即元数据的一项),不能很好的体现元数据之间的相关性;利用元数据的多维属性,如创建者、创建时间、修改时间等静态属性反映的相关性来建立索引加快查询,但这种索引也仅仅只能反映元数据的某些静态特征所表现相关性,随着应用的变化,这种相关性会发生变化,不能有效的支持元数据查询。有研究表明,传统的文件属性有时无助于文件查询,比如根据时间来查询,30.8%的可能找到结果,53.8%的可能找到错误结果。
(3)现有的文件元数据查询系统缺乏对复杂查询的实现或优化,对于涉及元数据多维属性的查询请求,如范围查询、Top K查询、近似最近邻查询等,随着数据量的增大,现有方法不能快速有效地处理用户越来越多的复杂查询请求;
(4)现有的文件元数据查询系统的可扩展性差,当元数据的属性项或数目随着系统的扩展而增多时,查询的响应时间将显著增加。
发明内容
本发明要解决的技术问题是:针对现有文件元数据查询技术无法满足云计算和大数据的快速高效的文件查询需要的问题,本发明提出存储系统中基于溯源信息的文件元数据查询方法,通过溯源信息提供的关于文件元数据之间的动态的相关性来加快查询,并可提高查询的准确率。
为实现上述目的,按照本发明的一个方面,提供了一种存储系统中基于溯源信息的文件元数据查询方法,包括以下步骤:
(1)对安装在存储系统的客户端的溯源信息收集工具,设置溯源信息收集范围,获取初始溯源信息后经过处理分析得到文件相关性信息,然后将这些文件相关性信息发送到存储系统的元数据服务器;
(2)根据元数据服务器接收的文件相关性信息,生成关系图,所述关系图为无向有权图,所述关系图中的节点代表文件,所述边代表文件相关性;
(3)接收用户的查询请求,根据用户的查询条件在基于关联感知的元数据索引树中查询得到种子结果集;
(4)根据得到的种子结果集在关系图中进行查询,得到初始结果集,然后对初始结果集进行排序和精简得到最终结果集发送给查询用户。
进一步地,所述步骤(1)包括以下子步骤:
(1-1)在每一个存储系统的客户端程序中加入溯源信息收集模块;
(1-2)设置溯源信息收集模块收集溯源信息的范围,即只收集存储系统中涉及到文件相关性的信息;
(1-3)将在客户端收集的溯源信息经过去重,分析得到文件关系项后,将这些文件关系项发送到相应的元数据服务器,所述每个文件关系项中包含发生关系的两个文件的通用资源标识符URI和相关性信息。
进一步地,所述步骤(2)包括以下子步骤:
(2-1)得到客户端传递过来的各条文件关系项;
(2-2)根据文件关系项中的两个文件的URI分别判断关系图中是否已包含代表这两个文件的节点,如果不包含,则在关系图中添加代表该文件的节点;
(2-3)根据文件关系项中两个文件的相关性信息,判断该文件关系项是否已在关系图中记录,如果已记录则更新这两个文件的相关性信息,否则在关系图中添加这一文件关系项。
进一步地,在所述步骤(3)之前还包括建立基于关联感知的元数据索引树的步骤,具体为:
选择文件属性中能反映文件相关性的属性,将每台元数据服务器上的元数据根据这些属性进行划分,然后建立索引,对所有的元数据服务器采用同样的方法建立一个树型的索引,从而在整个存储系统中建立基于关联感知的元数据索引树。
进一步地,所述步骤(3)包括以下子步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中科技大学,未经华中科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410199580.1/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置