[发明专利]一种数据分层存储系统及方法有效

专利信息
申请号: 201611095493.7 申请日: 2016-12-02
公开(公告)号: CN106775464B 公开(公告)日: 2019-09-06
发明(设计)人: 张贵勇 申请(专利权)人: 郑州云海信息技术有限公司
主分类号: G06F3/06 分类号: G06F3/06
代理公司: 济南信达专利事务所有限公司 37100 代理人: 李世喆
地址: 450000 河南省郑州市*** 国省代码: 河南;41
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种数据分层存储系统及方法,该系统包括数据监控模块、自动分层模块、数据迁移模块;数据监控模块在确定出一定时间内外部对存储系统的第一分层的访问次数未达到阈值时,根据外部对各分层的访问记录,确定各分层的样本数据;自动分层模块根据样本数据建立自动分层模型,并针对数据监控模块发来的各目标数据,利用自动分层模型确定各目标数据所属的分层层级;数据迁移模块将各目标数据存储至其所属的分层层级对应的分层中。外部对分层的访问可以反映其当前的访问热点,访问热点变动时,系统可以确定样本数据以重建自动分层模型,并据此将各数据存储或迁移至对应分层。因此,本方案能够提高存储系统的磁盘利用率。
搜索关键词: 一种 数据 分层 存储系统 方法
【主权项】:
1.一种数据分层存储系统,其特征在于,包括:数据监控模块、自动分层模块、数据迁移模块,其中,所述数据监控模块包括命中率统计单元、数据样本筛选单元、数据层级标注单元;所述命中率统计单元,用于针对存储系统的至少两个分层中的第一分层,统计相应预设时间段内,外部对所述第一分层的访问次数;在确定出所述访问次数未达到相应预设阈值时,触发所述数据样本筛选单元;所述数据样本筛选单元,用于针对所述存储系统的每一个分层均执行:根据相应预设时间段内,外部所访问的该分层中存储的第一数量的数据,确定所述第一数量的数据中的第二数量的样本数据,其中,所述第一数量不小于所述第二数量;将确定出的针对每一个分层的第二数量的样本数据发送给所述自动分层模块;所述自动分层模块,用于根据所述数据样本筛选单元发来的针对每一个分层的第二数量的样本数据,建立自动分层模型,并触发所述数据层级标注单元;针对所述数据层级标注单元发来的至少一个目标数据,利用所述自动分层模型,分别确定每一个所述目标数据所属的分层层级,并将其发送给所述数据层级标注单元;所述数据层级标注单元,用于在接收到所述自动分层模块发来的触发信号时,确定至少一个目标数据,并将其发送给所述自动分层模块;在接收到所述自动分层模块发来的每一个所述目标数据所属的分层层级时,触发所述数据迁移模块;所述数据迁移模块,用于针对所述数据层级标注单元中确定的每一个所述目标数据,均执行:将该目标数据存储至其所属的分层层级对应的分层中;所述第一分层为存储系统的至少两个分层中的最高分层层级对应的分层,其中,分层层级越高,单位时间内外部对该分层层级对应的分层的访问次数越多;所述命中率统计单元中基于的预设时间段与所述数据样本筛选单元中基于的预设时间段,在时间维度上为同一时间段;所述第二数量占所述第一数量的百分比固定;所述自动分层模型为决策树;所述自动分层模块,包括第一处理单元、第二处理单元和第三处理单元,其中,所述第一处理单元,用于根据所述数据样本筛选单元发来的针对每一个分层的第二数量的样本数据,结合公式一、公式二、公式三、公式四、公式五、公式六、公式七和公式八,确定样本数据当前的至少两个特征中,具有最大信息增益比的特征;判断所述最大信息增益比是否不小于相应设定阈值,若是,将该特征确定为有效特征,否则,触发第二处理单元;所述第二处理单元,用于将所述有效特征设置为决策树的已有节点的下一级节点,并触发第三处理单元;在接收到所述第一处理单元的触发操作时,完成所述决策树的创建,并清除创建的上一个决策树;所述第三处理单元,用于在接收到所述第二处理单元的触发操作时,将所述有效特征从所述当前的至少两个特征中剔除,得到剔除后的至少两个特征;将所述剔除后的至少两个特征再次作为当前的至少两个特征,并触发所述第一处理单元;所述公式一,包括:其中,P(Xij)为Xij的概率;Xij为样本数据当前的至少两个特征中的第i个特征,且该第i个特征的取值为该特征可取的至少一个数值中的第j个数值;Nij为在每一个分层中存储的样本数据中,具有Xij特征的样本数据的个数的总和;N为每一个分层中存储的样本数据的个数的总和;所述公式二,包括:其中,P(Yi)为Yi的概率;Yi为存储系统的至少两个分层中的第i个分层,且每一个分层中存储有样本数据;Mi为第i个分层中存储的样本数据的个数;N为每一个分层中存储的样本数据的个数的总和;所述公式三,包括:其中,P(Yi|Xij)为Yi|Xij的概率;Yi|Xij为存储系统的至少两个分层中的第i个分层,且每一个分层中存储有具有Xij特征的样本数据;Mi′为第i个分层中存储的具有Xij特征的样本数据的个数;N′为每一个分层中存储的具有Xij特征的样本数据的个数的总和;所述公式四,包括:其中,H(Y)为Y的熵;Y为存储系统的分层;P(Yi)为Yi的概率;n1为存储系统的至少两个分层的个数;所述公式五,包括:其中,H(Y|Xij)为Y|Xij的熵;Y|Xij为存储系统的分层,且每一个分层中存储有具有Xij特征的样本数据;P(Yi|Xij)为Yi|Xij的概率;所述公式六,包括:其中,H(Y|Xi)为Y|Xi的条件熵;Y|Xi为存储系统的分层,且该分层针对样本数据当前的至少两个特征中的第i个特征;P(Xij)为Xij的概率;H(Y|Xij)为Y|Xij的熵;n2为第i个特征可取的至少一个数值的个数;所述公式七,包括:g(Y|Xi)=H(Y)‑H(Y|Xi)其中,g(Y|Xi)为Y|Xi的信息增益;Y|Xi为存储系统的分层,且该分层针对样本数据当前的至少两个特征中的第i个特征;H(Y)为Y的熵;H(Y|Xi)为Y|Xi的条件熵;所述公式八,包括:其中,gR(Y|Xi)为Y|Xi的信息增益比;Y|Xi为存储系统的分层,且该分层针对样本数据当前的至少两个特征中的第i个特征;g(Y|Xi)为Y|Xi的信息增益;H(Y)为Y的熵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611095493.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top