[发明专利]一种数据处理方法及装置有效
申请号: | 201710267507.7 | 申请日: | 2017-04-21 |
公开(公告)号: | CN107368281B | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 周扬;杨树波 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F7/06 | 分类号: | G06F7/06 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 杨移 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请实施例公开了一种数据处理方法及装置,方法包括:获取多个待处理数据,将各待处理数据划分在预设的多个区间内,确定各区间内的待处理数据的近似值,根据所述近似值,确定对应于所述待处理数据的分位数。利用本申请实施例,使用近似值代替划分在任一区间内的各待处理数据的数值,能够减少参与到计算过程中的数据的数量。从而,可以减少计算分位数时的遍历次数,进一步可减少对数据库的I/O操作,能够在一定程度上提升计算分位数过程的效率。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法及装置。
背景技术
随着信息技术的发展及互联网技术的普及,业务提供方(如:网站、银行、电信运营商等)所需处理的数据量巨大。在实际应用时,业务提供方可能会根据业务需求(如:数据分析),针对某些数据执行分位数计算。
其中,分位数可认为是将一组有序排列的数据划分成不同部分的分位点所对应的数据。具体例如:在一组有序排列的数据中,不同数据均对应着不同的取值,假设某一数据的取值为50,同时假设,在该组数据中,数值小于50的数据的数量所占的比例为70%,那么,取值为50的数据则可认为是该组数据的第70分位数。
现有技术中,分位数计算的过程通常为:针对一组待计算数据进行逐一遍历的相互比对,完成对这一组待计算数据的排序,并基于排序后的数据序列,确定出相应的分位数。
然而,在实际应用时,业务提供方所生成的数据通常存储在相应的存储设备(如:数据库、服务器本地的磁盘)中。那么,从上述的分位数计算过程可见,为了确定出相应的分位数,需要针对每一待处理数据与其他各待处理数据进行逐一比对并排序。该过程通常需要针对存储设备执行多次I/O(Input/Output)操作。特别是在待计算数据量较大时,就需要大量执行I/O操作,显然,大量的I/O将耗费一定的时间,从而影响计算的效率。
发明内容
本申请实施例提供一种数据处理方法,用以解决现有的分位数计算方式的效率较低的问题。
本申请实施例提供的一种数据处理方法,所述方法包括:
获取多个待处理数据;
将各待处理数据划分在预设的多个区间内;
确定各区间内的待处理数据的近似值;
根据所述近似值,确定对应于所述待处理数据的分位数。
本申请实施例提供的一种数据处理装置,所述装置包括:
数据获取模块,获取多个待处理数据;
划分模块,将各待处理数据划分在预设的多个区间内;
近似值确定模块,确定各区间内的待处理数据的近似值;
分位数计算模块,根据所述近似值,确定对应于所述待处理数据的分位数。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
在执行分位数计算时,相应的计算设备(如:服务器)可从数据库中获取待进行分位数计算的多个数据,作为待处理数据。此后,计算设备将这些待处理数据划分在预设的多个区间中,并且,针对划分在不同区间的待处理数据,确定出相应的近似值。近似值能够表征落入每一区间中的待处理数据的一种平均取值。这样一来,可以将划分在不同区间内的待处理数据的数值替换为近似值进行分位数的计算。显然,正是由于使用近似值代替划分在任一区间内的各待处理数据的数值,也就能够减少参与到计算过程中的数据的数量。从而,可以减少计算分位数时的遍历次数,进一步可减少对数据库的I/O操作,能够在一定程度上提升计算分位数过程的效率。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710267507.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:信息处理方法及装置
- 下一篇:一种源无关连续型量子随机数产生方法及装置