[发明专利]数据处理方法及设备有效
申请号: | 201310692643.2 | 申请日: | 2013-12-17 |
公开(公告)号: | CN104714976B | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 杨旭;蔡宁;姜晓燕;王少萌;代斌 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 | ||
本申请提供一种数据处理方法及设备。所述方法包括:响应于针对一数据集合的初始查询请求,通过读取一遍所述数据集合内的数据来得到基本直方图;以及基于预定的目标区间或目标组距由基本直方图得到与目标区间或目标组距对应的目标直方图,并呈现目标直方图。通过采用该方法,能够在多次变换目标直方图的过程中,使读取数据的次数减少为一次,即仅使用基本直方图就可实现直方图的变换。由此,大大提高了系统的计算速度及数据处理能力,而且,即使在大数据的情况下也能够快速地展示出直方图。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种基于直方图的数据处理方法及设备。
背景技术
一般地,当待分析数据的数量仅为几十个时,通过目测就可以得到数据的分析结果,但是当待分析数据的数量达到1千、1万、……1亿、10亿时,就可以使用直方图来分析数据。直方图(Histogram)是一种表现数据分布特征的统计图形,即用一组无间隔、等宽、高度不等的纵向线段或柱状直条表示数据分布的情况。
例如,图10A至图10E是利用直方图分析数据的一例的示意图。图10A是针对某待分析数据而得到的直方图,在将区间宽度(以下也称作“组距”)设为80的情况下,由图可知,数据大多集中在[480,560)和[0,80)这两个区间。当将组距从80变更为20时,如图10B所示,可以看出数据较多的两个区间[500,520)和[0,20)优势非常明显。进而,在仅关注数据最多的区间[500,520)并将组距变更为2时,如图10C所示,可知在区间[510,512)上集中了绝大部分的数据。在同样的区间[500,520),将组距调整为0.1时,如图10D所示,得出在这一区间内数据均出现在整数附近这样的结论。相对于此,当仅关注区间[0,20)时,如图10E所示,这一区间内的数据分布与区间[500,520)完全不同,而是表现出呈对数分布的形状。由该示例可知,直方图有利于对待分析数据的分布的了解,通过改变组距(区间宽度)就能得出数据分布的更多信息,通过关注直方图中感兴趣的若干区域,能够比较直观地看出各个区域的数据分布特点。
然而,当待分析数据的数据量较小时,每次为获得直方图而执行计算的时间很短,用户可以连续地变换显示组距(即直方图的组距),切换到各个感兴趣的区间,而没有明显的停顿感觉。但是,当待分析数据的数据量较大时,计算时间就会变长,导致在切换区间的过程中明显地出现画面不流畅的现象,使用户的体验下降。另外,对于存储在分布式系统的海量数据(即大数据),在用户改变需求而变换显示组距时,每次为获得直方图而执行的计算需要花费几分钟,才能显示出新的直方图。
申请内容
本申请的主要目的在于提供一种数据处理方法及设备,以解决现有技术存在的在直方图的计算过程中计算时间过长而导致用户体验下降等问题,其中:
根据本申请的一个方面,提供一种数据处理方法,其特征在于,包括:响应于针对一数据集合的初始查询请求,通过读取一遍数据集合内的数据来得到基本直方图;以及基于预定的目标区间或目标组距,由基本直方图得到与目标区间或目标组距对应的目标直方图,并呈现目标直方图。
根据本申请的另一方面,提供一种数据处理设备,其特征在于,包括:基本直方图获得装置,被配置成响应于针对一数据集合的初始查询请求,通过读取一遍数据集合内的数据来得到基本直方图;以及目标直方图获得装置,被配置成基于预定的目标区间或目标组距,由基本直方图得到与目标区间或目标组距对应的目标直方图,并呈现目标直方图。
与现有技术相比,根据本申请的技术方案,通过读取一遍数据,计算出作为中间数据的组距非常小的直方图(称作“基本直方图”),然后根据用户的需求,并使用基本直方图来得到与用户需求相应的目标直方图。由此,在多次变换目标直方图的过程中,使读取数据的次数减少为一次,并且每次使用基本直方图就可实现直方图的变换。由此,大大提高了系统的计算速度及数据处理能力,而且,即使在大数据的情况下也能够快速地向用户展示出直方图。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310692643.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于支持评价分析的装置和方法
- 下一篇:一种数据库的多重查询方法