[发明专利]数据的存储方法和装置有效
申请号: | 201610730521.1 | 申请日: | 2016-08-25 |
公开(公告)号: | CN107783993B | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 叶一舟;张锋;杨磊 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/95 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 宋子良 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 存储 方法 装置 | ||
本发明公开了一种数据的存储方法和装置。其中,该方法包括:获取至少一个操作对象的日志信息,日志信息包括:任意一个操作对象的多个行为数据,以及每个行为数据之间跳转时的关联因子;基于树状存储结构保存任意一个操作对象的行为数据和每个行为数据之间跳转时的关联因子,得到每个操作对象的网络行为关系数据;以用户访问操作对象过程的会话为单位,确定会话中包含的多个操作对象;将会话中包含的多个对象的网络行为关系数据进行关联存储,得到用户在会话内发生的网络访问结果。本发明解决了现有技术采用时序列存储数据的方法,对用户的网络访问信息做了严重割裂,导致存储结果关联性差的技术问题。
技术领域
本发明涉及数据存储领域,具体而言,涉及一种数据的存储方法和装置。
背景技术
在当前的大数据时代,为了快速对用户行为分析和建模,需要将海量大数据以某种形式进行存储,目前的常用几种方法是:(1)基于单行为、单业务场景的“烟囱模式”存储方式,即用户在网络中每个业务场景下每发生一次行为就会存为一行(即一条记录),业务域、行为域之间相互独立;(2)在方法(1)的基础上严格按照用户行为的发生时间将用户的所有行为简单的进行线性串接在一起,即时序列存储。
而时序列存储的主要的缺点是由于严格的按照时间的先后顺序将用户session(会话)内的所有行为串接在一起,这种方式无法快速的进行用户跨场景的行为跳转分析,同时一定程度上对用户行为做了严重的割裂,无法高效的分析用户完整的网络购物路径,且数据分析复杂度较高。
图1是根据现有技术的一种生成训练数据集的结构示意图,下面以购物网站的无线搜索训练表(包括A客户端和B客户端)的制作过程作为示例,结合图1所示的示例:
第一步,获取样本数据,获取样本数据首先需要将A客户端搜索的曝光日志、点击日志和成交日志进行日志清晰、数据去噪以及繁琐的关联工作,然后生成基于A的产品粒度的曝光-点击-成交全链路行为宽表(basetable),对于B需要重复同样的工作,生成B的全链路行为宽表,再将两张行为宽表进行计算逻辑和字段内容的兼容、合并,最后生成用于训练数据的样本。
第二步,获取特征数据,获取特征数据通常需要对全网用户行为来做统计特征,包括PC的Aplus(A+)日志、无线的UT(User track,用户追踪)日志、全网成交日志(剔除反作弊订单)、用户维表、产品维表、卖家维表等等,并对全网用户行为数据进行关联和统计,得到产品、卖家、买家等单维度特征表,再将多个单维度特征表整合起来,最终做成全量特征宽表。
当前上述两个步骤都完成完后,原始的训练数据集才能生成。每个算法工程师都要重复进行上述过程来建模,80%的时间都花在训练集的生成上面,开发效率低下,资源浪费严重。
再以场景和场景之间的跳转作为示例,在用户行为数据采用时序列存储的情况下,需要从最早时间节点到最晚时间节点遍历一次才能实现,如果需求的数据处于最晚的时间节点上,其时间复杂度为:O(n1+n2+n3+n4)。;在用户的行为数据利用单行为数据存储,需要先汇总每个用户的所有行为,然后在行为集合中再做曝光页A到B的数据分析,时间复杂度更高。
同理,在对行为数据之间的关系进行分析时,在用户行为数据采用时序列存储的情况下,其时间复杂度为O(n1+n2),而在用户行为数据采用单行为存储方法的情况下,时间复杂度更高。如果现有技术中需要分析产品点击和详情页内点击之间的关系(产品点击满意度分析),在用户行为数据采用时序列存储的情况下,其时间复杂度为O(n2+n3),在用户行为数据采用单行为存储方法的情况下,时间复杂度同样更高。在对产品的购物路径进行分析时,在用户行为数据采用时序列存储的情况下,时间复杂度为O(n1+n2+n3+n4),在用户行为数据采用单行为存储方法的情况下,时间复杂度同样更高。
针对现有技术采用时序列存储数据的方法,对用户的网络访问信息做了严重割裂,导致存储结果关联性差的问题,目前尚未提出有效的解决方案。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610730521.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置