[发明专利]用于大数据的数据稳定性检测方法及装置、存储介质、服务器在审
申请号: | 201710705979.6 | 申请日: | 2017-08-17 |
公开(公告)号: | CN107577721A | 公开(公告)日: | 2018-01-12 |
发明(设计)人: | 汤奇峰;侯东东 | 申请(专利权)人: | 晶赞广告(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 张振军,吴敏 |
地址: | 200072 上海市闸北区灵*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 数据 稳定性 检测 方法 装置 存储 介质 服务器 | ||
技术领域
本发明涉及信息处理领域,具体涉及一种用于大数据的数据稳定性检测方法及装置、存储介质、服务器。
背景技术
随着互联网和大数据行业的飞速发展,数据管理平台(Data Management Platform,简称DMP)由于具备数据采集与管理、分析与应用等多项功能,已成为支撑大数据管理的基础。首先,DMP采用统一化方式吸纳整合各方数据,具备数据整合及标准化能力;其次,DMP利用数据建模、机器算法等技术,具备数据细分管理能力;再次,DMP提供功能健全的数据标签,例如人群标签管理、产品标签管理等,帮助营销取得最大化效果。
DMP具有强大的数据汇聚整合能力,可以处理各种来源的数据,包括网站监测数据,软件开发工具包(Software Development Kit,简称SDK)监测数据、离线业务数据、结构化查询语言(Structured Query Language,简称SQL)数据、实时接口数据等。在汇聚整合过程中,数据从外部正常接入至DMP是关键步骤之一。如果外部接入的数据出现问题,那么可能导致DMP的后续分析产生偏差,进而影响营销效果。因此,对于接入DMP的数据,需要检测数据是否在正常范围内,以便DMP及时预警。
DMP通常拥有海量的数据资源,以用户标签为例,DMP可以向客户提供功能健全的用户标签。然而,尽管DMP收集了用户的海量数据,但由于来源于不同渠道的数据(如跨屏数据、跨线上、线下数据等)往往是非结构化、维度不统一、非关系型的数据,因而需要对收集到的用户标签进行补充,从而得到具有标准结构的用户标签。显而易见地,接入DMP的数据的稳定性越高,DMP提供的用户标签质量也越高。
由此可见,为了提取和挖掘数据的最大价值,检测接入至DMP的数据的稳定性是DMP需要解决的关键问题之一。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明解决的技术问题是检测大数据的数据供应量的稳定性问题,以便DMP及时预警异常数据供应量。
为解决上述技术问题,本发明实施例提供一种用于大数据的数据稳定性检测方法,包括:基于历史数据得到按照时间序列排布的训练数据;对所述训练数据进行拟合,以得到所述训练数据随时间的数据分布;根据实际供应数据与所述数据分布的比较结果确定所述实际供应数据是否出现异常。
可选的,所述基于历史数据得到按照时间序列排布的训练数据包括:按照时间序列提取所述历史数据中的数据,以得到时间序列数据;对所述时间序列数据进行清洗,以得到所述训练数据。
可选的,所述对所述时间序列数据进行清洗,以得到所述训练数据包括:对所述时间序列数据进行对数变换,以得到变换后的数据;剔除所述变换后的数据中的异常数据,以得到所述训练数据。
可选的,所述异常数据指的是:不在(QL-1.5IQR,QU+1.5IQR)范围内的数据,其中,QL表示所述变换后的数据的下四分点,QU表示所述变换后的数据的上四分点,IQR表示所述变换后的数据的四分位距,IQR=QU-QL。
可选的,所述历史数据包括以下一项或多项:网站监测数据、软件开发工具包监测数据、离线业务数据、结构化查询语言数据、实时接口数据。
可选的,所述对所述训练数据进行拟合,以得到所述训练数据随时间的数据分布包括:构建含有参数的多项式模型;利用最小二乘法或者梯度下降法求解所述多项式模型的参数,以得到所述训练数据随时间的数据分布。
可选的,所述根据实际供应数据与所述数据分布的比较结果确定所述实际供应数据是否出现异常包括:构造所述数据分布在预设置信度下的置信区间;如果所述实际供应数据落入所述置信区间,则判断所述实际供应数据正常,否则判断所述实际供应数据异常。
可选的,所述用于大数据的数据稳定性检测方法还包括:图形显示以下一项或多项:所述数据分布、所述数据分布在预设置信度下的置信区间、所述实际供应数据和表示所述实际供应数据异常的标识。
为解决上述技术问题,本发明实施例还提供一种用于大数据的数据稳定性检测装置,包括:训练模块,适于基于历史数据得到按照时间序列排布的训练数据;拟合模块,适于对所述训练数据进行拟合,以得到所述训练数据随时间的数据分布;判断模块,适于根据实际供应数据与所述数据分布的比较结果确定所述实际供应数据是否出现异常。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于晶赞广告(上海)有限公司,未经晶赞广告(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710705979.6/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置