[发明专利]一种电子商务时间序列数据的异常检测方法及系统在审
申请号: | 201510342240.4 | 申请日: | 2015-06-18 |
公开(公告)号: | CN104915846A | 公开(公告)日: | 2015-09-16 |
发明(设计)人: | 刘朋飞;牟川;李亮 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06Q30/00 | 分类号: | G06Q30/00;G06F21/31 |
代理公司: | 北京邦信阳专利商标代理有限公司 11012 | 代理人: | 金玺 |
地址: | 100080 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电子商务 时间 序列 数据 异常 检测 方法 系统 | ||
技术领域
本发明涉及电子商务相关技术领域,特别是一种电子商务时间序列数据的异常检测方法及系统。
背景技术
时间序列是按时间先后顺序排列的各个观测记录的有序集合。在电子商务业务中,随着时间的推移,时间序列通常包含大量的数据,对于时间序列的分析,可以揭示电子商务业务运动、变化和发展的内在规律,尤其对于数据异常的来说,往往包含着更多重要的信息和知识,因此,如何快速有效地检测出这些异常是一项具有重要意义的工作,例如有时候订单数据异常地大,背后可能意味着巨大的市场机会;利润数据的异常增长,可能意味着有降低产品成本或提升利润的地方有待定位和挖掘;而用户数的异常减少,可能意味着某种市场风险或运营效率低下等问题的发生,等等异常数据在电子商务业务运营中需要及时地发现和定位原因,而电子商务业务的多变性、复杂性和大数据量等特征,为异常数据的检测带来了不小的挑战。
对于时间序列数据的异常检测,现有的技术方案通常利用业务逻辑和强假设的统计模型,大致采用两种方法:
(1)业务逻辑主观阈值法
采用移动平均值或环比、同比作为基准值,把待判断数据域基准值的变化率计算出来,然后与阈值比较,超过阈值则判定为异常,通常这个阈值是主观确定的。这样做有两个缺点,一个是阈值是业务人员主观确定,不同的人对业务的理解程度不一样可能产生不同的阈值,而且可解释性较差;另一方面通过环比、同比数据作为基准值的时候,当多个异常数据同时出现的时候,由于前面的异常数据过大或过小会使后面异常数据的环比或同比数据趋于平稳,从而无法发现后面连续的异常数据,就像被“屏蔽”一样。如图1所示:
例如6月18日前后三天的数据都异常变大,但是用环比数据计算的时候,后面两天由于第一天数据特别大,计算的环比变化就会很小,这样就只能发现第一天的数据点异常,后面两天的异常数据就会被第一天数据“屏蔽”掉而检测不出来。
(2)强假设统计模型判别法
统计模型经常会有数据满足某种特定分布的假设条件,常用的是满足正态分布,在正态分布假设下,正常值区间范围为:均值n倍标准差,n取1-3的时候,落在此区域的概率分别为68.29%、95.45%和99.73%,数据在正常值区间外的情况属于小概率事件,定义为异常值。
目前上述发现时间序列数据异常的方法中,第一种业务逻辑主观阈值法存在阈值定义主观、存在“屏蔽”效应等多种条件,在检测可解释性和精度上都存在较大问题;另一种强假设统计模型判断法则存在假设依赖太强的问题,实际的电子商务数据是非常复杂的,很少有符合某种特定分布的情况,这就使得统计模型的使用范围受到限制,模型效力也大大削弱。
发明内容
基于此,有必要针对现有技术并不能很好地检验出电子商务数据的异常数据,提供一种电子商务时间序列数据的异常检测方法及系统。
一种电子商务时间序列数据的异常检测方法,包括:
数据获取步骤,包括:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测步骤,执行基准检测步骤的数据为待检测数据;
基准检测步骤,包括:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用步骤,其中,所述N为预设的大于1的自然数;
异常调用步骤,包括:把异常数据作为应用接口提供给需求方调用。
一种电子商务时间序列数据的异常检测系统,包括:
数据获取模块,用于:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测模块,执行基准检测模块的数据为待检测数据;
基准检测模块,用于:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用模块,其中,所述N为预设的大于1的自然数;
异常调用模块,用于:把异常数据作为应用接口提供给需求方调用。
本发明通过基准检测,基于稳健统计方法实现时序波动识别,适用于各种分布情况。本发明能够针对电子商务不同业务场景、不同数据分布形式,自动发现数据异常。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510342240.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双码防伪瓶盖及其制造方法
- 下一篇:面向服务的药品销售方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置