[发明专利]一种数据分层存储系统及方法有效
申请号: | 201611095493.7 | 申请日: | 2016-12-02 |
公开(公告)号: | CN106775464B | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 张贵勇 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 450000 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种数据分层存储系统及方法,该系统包括数据监控模块、自动分层模块、数据迁移模块;数据监控模块在确定出一定时间内外部对存储系统的第一分层的访问次数未达到阈值时,根据外部对各分层的访问记录,确定各分层的样本数据;自动分层模块根据样本数据建立自动分层模型,并针对数据监控模块发来的各目标数据,利用自动分层模型确定各目标数据所属的分层层级;数据迁移模块将各目标数据存储至其所属的分层层级对应的分层中。外部对分层的访问可以反映其当前的访问热点,访问热点变动时,系统可以确定样本数据以重建自动分层模型,并据此将各数据存储或迁移至对应分层。因此,本方案能够提高存储系统的磁盘利用率。 | ||
搜索关键词: | 一种 数据 分层 存储系统 方法 | ||
【主权项】:
1.一种数据分层存储系统,其特征在于,包括:数据监控模块、自动分层模块、数据迁移模块,其中,所述数据监控模块包括命中率统计单元、数据样本筛选单元、数据层级标注单元;所述命中率统计单元,用于针对存储系统的至少两个分层中的第一分层,统计相应预设时间段内,外部对所述第一分层的访问次数;在确定出所述访问次数未达到相应预设阈值时,触发所述数据样本筛选单元;所述数据样本筛选单元,用于针对所述存储系统的每一个分层均执行:根据相应预设时间段内,外部所访问的该分层中存储的第一数量的数据,确定所述第一数量的数据中的第二数量的样本数据,其中,所述第一数量不小于所述第二数量;将确定出的针对每一个分层的第二数量的样本数据发送给所述自动分层模块;所述自动分层模块,用于根据所述数据样本筛选单元发来的针对每一个分层的第二数量的样本数据,建立自动分层模型,并触发所述数据层级标注单元;针对所述数据层级标注单元发来的至少一个目标数据,利用所述自动分层模型,分别确定每一个所述目标数据所属的分层层级,并将其发送给所述数据层级标注单元;所述数据层级标注单元,用于在接收到所述自动分层模块发来的触发信号时,确定至少一个目标数据,并将其发送给所述自动分层模块;在接收到所述自动分层模块发来的每一个所述目标数据所属的分层层级时,触发所述数据迁移模块;所述数据迁移模块,用于针对所述数据层级标注单元中确定的每一个所述目标数据,均执行:将该目标数据存储至其所属的分层层级对应的分层中;所述第一分层为存储系统的至少两个分层中的最高分层层级对应的分层,其中,分层层级越高,单位时间内外部对该分层层级对应的分层的访问次数越多;所述命中率统计单元中基于的预设时间段与所述数据样本筛选单元中基于的预设时间段,在时间维度上为同一时间段;所述第二数量占所述第一数量的百分比固定;所述自动分层模型为决策树;所述自动分层模块,包括第一处理单元、第二处理单元和第三处理单元,其中,所述第一处理单元,用于根据所述数据样本筛选单元发来的针对每一个分层的第二数量的样本数据,结合公式一、公式二、公式三、公式四、公式五、公式六、公式七和公式八,确定样本数据当前的至少两个特征中,具有最大信息增益比的特征;判断所述最大信息增益比是否不小于相应设定阈值,若是,将该特征确定为有效特征,否则,触发第二处理单元;所述第二处理单元,用于将所述有效特征设置为决策树的已有节点的下一级节点,并触发第三处理单元;在接收到所述第一处理单元的触发操作时,完成所述决策树的创建,并清除创建的上一个决策树;所述第三处理单元,用于在接收到所述第二处理单元的触发操作时,将所述有效特征从所述当前的至少两个特征中剔除,得到剔除后的至少两个特征;将所述剔除后的至少两个特征再次作为当前的至少两个特征,并触发所述第一处理单元;所述公式一,包括:
其中,P(Xij)为Xij的概率;Xij为样本数据当前的至少两个特征中的第i个特征,且该第i个特征的取值为该特征可取的至少一个数值中的第j个数值;Nij为在每一个分层中存储的样本数据中,具有Xij特征的样本数据的个数的总和;N为每一个分层中存储的样本数据的个数的总和;所述公式二,包括:
其中,P(Yi)为Yi的概率;Yi为存储系统的至少两个分层中的第i个分层,且每一个分层中存储有样本数据;Mi为第i个分层中存储的样本数据的个数;N为每一个分层中存储的样本数据的个数的总和;所述公式三,包括:
其中,P(Yi|Xij)为Yi|Xij的概率;Yi|Xij为存储系统的至少两个分层中的第i个分层,且每一个分层中存储有具有Xij特征的样本数据;Mi′为第i个分层中存储的具有Xij特征的样本数据的个数;N′为每一个分层中存储的具有Xij特征的样本数据的个数的总和;所述公式四,包括:
其中,H(Y)为Y的熵;Y为存储系统的分层;P(Yi)为Yi的概率;n1为存储系统的至少两个分层的个数;所述公式五,包括:
其中,H(Y|Xij)为Y|Xij的熵;Y|Xij为存储系统的分层,且每一个分层中存储有具有Xij特征的样本数据;P(Yi|Xij)为Yi|Xij的概率;所述公式六,包括:
其中,H(Y|Xi)为Y|Xi的条件熵;Y|Xi为存储系统的分层,且该分层针对样本数据当前的至少两个特征中的第i个特征;P(Xij)为Xij的概率;H(Y|Xij)为Y|Xij的熵;n2为第i个特征可取的至少一个数值的个数;所述公式七,包括:g(Y|Xi)=H(Y)‑H(Y|Xi)其中,g(Y|Xi)为Y|Xi的信息增益;Y|Xi为存储系统的分层,且该分层针对样本数据当前的至少两个特征中的第i个特征;H(Y)为Y的熵;H(Y|Xi)为Y|Xi的条件熵;所述公式八,包括:
其中,gR(Y|Xi)为Y|Xi的信息增益比;Y|Xi为存储系统的分层,且该分层针对样本数据当前的至少两个特征中的第i个特征;g(Y|Xi)为Y|Xi的信息增益;H(Y)为Y的熵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611095493.7/,转载请声明来源钻瓜专利网。
- 上一篇:数据存储方法、装置及移动终端
- 下一篇:数据存储方法、装置及电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置