[发明专利]基于时间片的数据抽样方法、系统和装置有效

专利信息
申请号: 201710168786.1 申请日: 2017-03-21
公开(公告)号: CN108628889B 公开(公告)日: 2021-05-25
发明(设计)人: 马刚 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F16/22 分类号: G06F16/22
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 张一军;姜劲
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 时间 数据 抽样 方法 系统 装置
【说明书】:

发明提供一种基于时间片的数据抽样方法、系统和装置,所述方法包括:将任务时间分片成多个时间片的集合S={S1,S2,...,Si,...,SL},其中1≤i≤L,L为大于1的整数;选取所述多个时间片中的一个时间片Si;从所选取的时间片Si中选取数据,作为抽样结果。根据本发明所述的数据抽样方法、系统和装置,有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作,从而优化数据抽样在大数据中的应用。

技术领域

本发明涉及计算机及软件技术领域,特别地涉及一种基于时间片的数据抽样方法、系统和装置。

背景技术

目前的电子商务领域中,随着互联网技术的飞速发展,大数据的分析技术已经成为行业关注的焦点。目前,对于大数据的分析主要通过异步的任务计算获取期望的结果,对于大量的机器智能尚不能很好分析的数据,只能通过抽样技术进行人工分析。一方面,针对大数据的抽样要保证样本的随机分布,但在不进行遍历的情况下,很难进行随机抽样。另一方面,对于大数据系统,要尽量高效地完成抽样,保证算法的效率,使用少的资源在较短时间内完成抽样操作。

因此在现有技术中,一般采用基于随机数的抽样方法或蓄水池算法来对数据进行抽样。

基于随机数的抽样方法的基本思路在于,首先构造一个数据池,将所有的数据有序地放入该数据池中,数据池中的数据连续存储。数据池例如MySQL关系数据库或者内存数组,通过连续自增ID或者Index索引数据。抽样时,系统自动生成一个随机数,命中相应的ID或者Index,抽取对应的数据放入结果集中。当数据量较小时,此方案实现简单,抽样效率高,在实践中被广泛应用。当数据量增大时,想要在内存中构建一个这样的数据池完全不可行,一般需要配合数据库进行存储管理,并且构建连续的顺序索引。另外,传统的关系型数据库能够很方便的生成连续顺序索引,但是数据量过大时性能较差,一般使用分库分表的技术扩展支持;NoSQL数据库能很好的支持数据,但是要生成连续顺序索引需要额外的ID系统配合。综上,此方案在大数据抽样中,使用成本较高、实现难度较大,一般不建议采用。

使用蓄水池算法的数据抽样方法的基本思路在于,通过遍历数据,实现数据的随机抽样。此方法中,首先构造一个结果池,池的大小等于要抽样的数据量的大小。通过遍历数据,将前k个数据放入结果池中,k到N的数据k+i按照k/(k+i)的概率与结果池的数据进行随机置换。此方案对存储要求较低,实现简单,配合一般的NoSQL数据库,能够很方便的实现数据的随机抽样。但是需要对整体数据进行遍历,数据量较大时,全量遍历数据是非常耗时的操作,而且需要消耗大量的计算资源。

发明内容

有鉴于此,本发明提供一种基于时间片的数据抽样方法、系统和装置,能够在不进行全量的数据遍历的情况下,对非均匀分布的数据,尽可能保证抽样结果在整个样本空间的均匀分布;有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作,从而优化数据抽样在大数据中的应用。

为实现上述目的,根据本发明的一个方面,提供了一种方法,包括以下步骤:将任务时间分片成多个时间片的集合S={S1,S2,…,Si,…,SL},其中1≤i≤L,L为大于1的整数;选取所述多个时间片中的一个时间片Si;从所选取的时间片Si中选取数据,作为抽样结果。

可选地,选取所述多个时间片中的一个时间片Si的步骤,包括:对所述多个时间片中的每个时间片Si,估算单位时间数据密度;利用所估算的单位时间数据密度,计算数据落在第i个时间片之前的时间内的概率P(i)=P(t<Si);生成随机浮点数X;选取满足P(i)<X≤P(i+1)的时间片Si

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710168786.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top