[发明专利]一种数据处理方法及装置,计算机存储介质和电子设备有效
申请号: | 201811593588.0 | 申请日: | 2018-12-25 |
公开(公告)号: | CN111367992B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 孟嘉豪;陈梁;刘欢 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/2458 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁;窦晓慧 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 存储 介质 电子设备 | ||
本申请公开了一种数据处理方法及装置,一种分布式数据库中数据处理的方法以及计算机存储介质和电子设备,所述数据处理方法包括:获取需要统计的键值对;根据不同统计周期内设定的相应的哈希算法,统计所述统计周期内发生访问操作行为的键值对,获得统计数据;根据获得的所述统计数据,确定所述需要统计的键值对中未发生访问操作行为的冷键值对;进而在整个统计过程中能够将未被访问过的键值对误判为访问过的键值对逐渐依次筛选出来,从而提高后续冷键值对识别的准确性。
技术领域
本申请涉及计算机应用技术领域,具体涉及一种数据处理方法及数据处理装置。本申请同时涉及一种分布式数据库中数据处理的方法和一种计算机存储介质和电子设备。
背景技术
分布式缓存系统tair是一个分布式key/value存储引擎,分布式缓存系统tair分为持久化和非持久化两种使用方式。非持久化的分布式缓存系统tair可以是一个分布式缓存;持久化的分布式缓存系统tair是将数据存放于磁盘中。为解决磁盘损坏导致数据丢失,分布式缓存系统tair可以配置数据的备份数目,分布式缓存系统tair自动将一份数据的不同备份放到不同的主机上,当有主机发生异常,无法正常提供服务的时候,其于的备份会继续提供服务。
然而,分布式缓存系统tair中,后端基于leveldb的ldb持久化存储引擎在硬盘上可以存储大量键值对。对于缓存系统中单机数据服务器上亿级别的键值对,若全部存储于分布式缓存系统tair中会占用大量硬盘空间。
现有技术中通过对存储键值对数据的冷热状态进行甄别,通过甄别结果以减小硬盘空间,然而仍然存在下述缺陷:
一、在通过访问次数来最终分类数据是否是冷热的方法中,由于降采样与估计算法精确度较差,进而不能识别出低频但是访问过的数据。
二、通过结合LRU与CountMin Sketch筛选数据,使用CountMin Sketch作为过滤器记录数据的频率,当新来的数据比要驱逐的数据高频时才加入到LRU中。此种方法同样由于记录大量数据的频率,进而会耗费大量内存空间。
发明内容
本申请提供一种数据处理方法及装置,以解决现有技术中存在的访问数据识别不准确,以及内存消耗较大的问题。本申请另外一种分布式数据库中数据处理的方法以及一种计算机存储介质以及电子设备。
本申请提供一种数据处理方法,包括:
获取需要统计的键值对;
根据不同统计周期内设定的相应的哈希算法,统计所述统计周期内发生访问操作行为的键值对,获得统计数据;
根据获得的所述统计数据,确定所述需要统计的键值对中未发生访问操作行为的冷键值对。
在一些实施例中,还包括:
根据所述需要统计的键值对进行采样,获取已发生访问操作的键值对。
在一些实施例中,所述根据需要统计的对键值对进行采样,获取已发生访问操作的键值对,包括:
按照对键值对的访问操作,确定键值对采样的采样区域;
根据采样区域,对所述键值对进行采样。
在一些实施例中,所述按照对键值对的访问操作,确定键值对采样的采样区域,包括:
将所述键值对发生访问操作的访问操作路径,确定为键值对采样的采样区域。
在一些实施例中,还包括:
将所述统计数据进行转存,获得转存统计数据;
根据所述转存统计数据生成统计数据快照。
在一些实施例中,所述获得的所述统计数据,确定所述需要统计的键值对中未发生访问操作行为的冷键值对,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811593588.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对抗多普勒频移的方法及相关设备
- 下一篇:一种控制车道流量的方法及装置