[发明专利]一种电子商务时间序列数据的异常检测方法及系统在审

专利信息
申请号: 201510342240.4 申请日: 2015-06-18
公开(公告)号: CN104915846A 公开(公告)日: 2015-09-16
发明(设计)人: 刘朋飞;牟川;李亮 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06Q30/00 分类号: G06Q30/00;G06F21/31
代理公司: 北京邦信阳专利商标代理有限公司 11012 代理人: 金玺
地址: 100080 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 电子商务 时间 序列 数据 异常 检测 方法 系统
【说明书】:

技术领域

发明涉及电子商务相关技术领域,特别是一种电子商务时间序列数据的异常检测方法及系统。

背景技术

时间序列是按时间先后顺序排列的各个观测记录的有序集合。在电子商务业务中,随着时间的推移,时间序列通常包含大量的数据,对于时间序列的分析,可以揭示电子商务业务运动、变化和发展的内在规律,尤其对于数据异常的来说,往往包含着更多重要的信息和知识,因此,如何快速有效地检测出这些异常是一项具有重要意义的工作,例如有时候订单数据异常地大,背后可能意味着巨大的市场机会;利润数据的异常增长,可能意味着有降低产品成本或提升利润的地方有待定位和挖掘;而用户数的异常减少,可能意味着某种市场风险或运营效率低下等问题的发生,等等异常数据在电子商务业务运营中需要及时地发现和定位原因,而电子商务业务的多变性、复杂性和大数据量等特征,为异常数据的检测带来了不小的挑战。

对于时间序列数据的异常检测,现有的技术方案通常利用业务逻辑和强假设的统计模型,大致采用两种方法:

(1)业务逻辑主观阈值法

采用移动平均值或环比、同比作为基准值,把待判断数据域基准值的变化率计算出来,然后与阈值比较,超过阈值则判定为异常,通常这个阈值是主观确定的。这样做有两个缺点,一个是阈值是业务人员主观确定,不同的人对业务的理解程度不一样可能产生不同的阈值,而且可解释性较差;另一方面通过环比、同比数据作为基准值的时候,当多个异常数据同时出现的时候,由于前面的异常数据过大或过小会使后面异常数据的环比或同比数据趋于平稳,从而无法发现后面连续的异常数据,就像被“屏蔽”一样。如图1所示:

例如6月18日前后三天的数据都异常变大,但是用环比数据计算的时候,后面两天由于第一天数据特别大,计算的环比变化就会很小,这样就只能发现第一天的数据点异常,后面两天的异常数据就会被第一天数据“屏蔽”掉而检测不出来。

(2)强假设统计模型判别法

统计模型经常会有数据满足某种特定分布的假设条件,常用的是满足正态分布,在正态分布假设下,正常值区间范围为:均值n倍标准差,n取1-3的时候,落在此区域的概率分别为68.29%、95.45%和99.73%,数据在正常值区间外的情况属于小概率事件,定义为异常值。

目前上述发现时间序列数据异常的方法中,第一种业务逻辑主观阈值法存在阈值定义主观、存在“屏蔽”效应等多种条件,在检测可解释性和精度上都存在较大问题;另一种强假设统计模型判断法则存在假设依赖太强的问题,实际的电子商务数据是非常复杂的,很少有符合某种特定分布的情况,这就使得统计模型的使用范围受到限制,模型效力也大大削弱。

发明内容

基于此,有必要针对现有技术并不能很好地检验出电子商务数据的异常数据,提供一种电子商务时间序列数据的异常检测方法及系统。

一种电子商务时间序列数据的异常检测方法,包括:

数据获取步骤,包括:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测步骤,执行基准检测步骤的数据为待检测数据;

基准检测步骤,包括:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用步骤,其中,所述N为预设的大于1的自然数;

异常调用步骤,包括:把异常数据作为应用接口提供给需求方调用。

一种电子商务时间序列数据的异常检测系统,包括:

数据获取模块,用于:获取基于时间序列的电子商务数据,对所述电子商务数据中的每个数据执行基准检测模块,执行基准检测模块的数据为待检测数据;

基准检测模块,用于:选择邻近待检测数据的N期电子商务数据作为窗口统计数据,对所述窗口统计数据进行分位数统计,从而确定所述窗口统计数据中的正常值上边界和正常值下边界,所述窗口统计数据中处于所述正常值上边界和所述正常值下边界所确定的正常值范围以外的数据为异常数据,如果出现异常数据,则执行异常调用模块,其中,所述N为预设的大于1的自然数;

异常调用模块,用于:把异常数据作为应用接口提供给需求方调用。

本发明通过基准检测,基于稳健统计方法实现时序波动识别,适用于各种分布情况。本发明能够针对电子商务不同业务场景、不同数据分布形式,自动发现数据异常。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510342240.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top