[发明专利]基于时间片的数据抽样方法、系统和装置有效
申请号: | 201710168786.1 | 申请日: | 2017-03-21 |
公开(公告)号: | CN108628889B | 公开(公告)日: | 2021-05-25 |
发明(设计)人: | 马刚 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时间 数据 抽样 方法 系统 装置 | ||
本发明提供一种基于时间片的数据抽样方法、系统和装置,所述方法包括:将任务时间分片成多个时间片的集合S={S1,S2,...,Si,...,SL},其中1≤i≤L,L为大于1的整数;选取所述多个时间片中的一个时间片Si;从所选取的时间片Si中选取数据,作为抽样结果。根据本发明所述的数据抽样方法、系统和装置,有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作,从而优化数据抽样在大数据中的应用。
技术领域
本发明涉及计算机及软件技术领域,特别地涉及一种基于时间片的数据抽样方法、系统和装置。
背景技术
目前的电子商务领域中,随着互联网技术的飞速发展,大数据的分析技术已经成为行业关注的焦点。目前,对于大数据的分析主要通过异步的任务计算获取期望的结果,对于大量的机器智能尚不能很好分析的数据,只能通过抽样技术进行人工分析。一方面,针对大数据的抽样要保证样本的随机分布,但在不进行遍历的情况下,很难进行随机抽样。另一方面,对于大数据系统,要尽量高效地完成抽样,保证算法的效率,使用少的资源在较短时间内完成抽样操作。
因此在现有技术中,一般采用基于随机数的抽样方法或蓄水池算法来对数据进行抽样。
基于随机数的抽样方法的基本思路在于,首先构造一个数据池,将所有的数据有序地放入该数据池中,数据池中的数据连续存储。数据池例如MySQL关系数据库或者内存数组,通过连续自增ID或者Index索引数据。抽样时,系统自动生成一个随机数,命中相应的ID或者Index,抽取对应的数据放入结果集中。当数据量较小时,此方案实现简单,抽样效率高,在实践中被广泛应用。当数据量增大时,想要在内存中构建一个这样的数据池完全不可行,一般需要配合数据库进行存储管理,并且构建连续的顺序索引。另外,传统的关系型数据库能够很方便的生成连续顺序索引,但是数据量过大时性能较差,一般使用分库分表的技术扩展支持;NoSQL数据库能很好的支持数据,但是要生成连续顺序索引需要额外的ID系统配合。综上,此方案在大数据抽样中,使用成本较高、实现难度较大,一般不建议采用。
使用蓄水池算法的数据抽样方法的基本思路在于,通过遍历数据,实现数据的随机抽样。此方法中,首先构造一个结果池,池的大小等于要抽样的数据量的大小。通过遍历数据,将前k个数据放入结果池中,k到N的数据k+i按照k/(k+i)的概率与结果池的数据进行随机置换。此方案对存储要求较低,实现简单,配合一般的NoSQL数据库,能够很方便的实现数据的随机抽样。但是需要对整体数据进行遍历,数据量较大时,全量遍历数据是非常耗时的操作,而且需要消耗大量的计算资源。
发明内容
有鉴于此,本发明提供一种基于时间片的数据抽样方法、系统和装置,能够在不进行全量的数据遍历的情况下,对非均匀分布的数据,尽可能保证抽样结果在整个样本空间的均匀分布;有助于使用较少的计算资源和较短的时间而完成大量数据的抽样操作,从而优化数据抽样在大数据中的应用。
为实现上述目的,根据本发明的一个方面,提供了一种方法,包括以下步骤:将任务时间分片成多个时间片的集合S={S1,S2,…,Si,…,SL},其中1≤i≤L,L为大于1的整数;选取所述多个时间片中的一个时间片Si;从所选取的时间片Si中选取数据,作为抽样结果。
可选地,选取所述多个时间片中的一个时间片Si的步骤,包括:对所述多个时间片中的每个时间片Si,估算单位时间数据密度;利用所估算的单位时间数据密度,计算数据落在第i个时间片之前的时间内的概率P(i)=P(t<Si);生成随机浮点数X;选取满足P(i)<X≤P(i+1)的时间片Si。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710168786.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置