[发明专利]基于分层聚类的滑动窗口多数据流异常检测方法有效
申请号: | 201310364401.0 | 申请日: | 2013-08-20 |
公开(公告)号: | CN103400152A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 刘大同;庞景月;彭宇;罗清华;彭喜元 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 岳泉清 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于分层聚类的滑动窗口多数据流异常检测方法,本发明涉及基于分层聚类的滑动窗口多数据流异常检测方法。它为了解决由于过期数据和历史数据的影响使数据流异常检测结果的精度降低问题。本发明通过分层聚类算法在在线做聚时可以不必考虑最终的聚类结果,以较高的速率对到达的数据进行处理,而离线层由于只利用在线做聚结构响应用户查询结果,其数据量大大小于原始数据个数,可以实现数据的有效存储,得到较精确的聚类结果。针对滑动窗口模型,采用聚类特征指数直方图的结构,可以更好的完成新数据的插入和过期数据的删除。通过余弦系数作为度量函数,可以取得很好的聚类和异常检测结果。本发明适用于传感器、网络点击流和股票交易等领域。 | ||
搜索关键词: | 基于 分层 滑动 窗口 多数 异常 检测 方法 | ||
【主权项】:
基于分层聚类的滑动窗口多数据流异常检测方法,其特征在于:它包括下述步骤:步骤一、设定滑动窗口尺寸N,通过传感器采集多数据流中第一个窗口的数据流元素作为离线数据进行初始K均值聚类,获得k个做聚结构,完成做聚结构的离线初始化,执行步骤二;其中,N正整数,N大于等于1000,k为设定的在线做聚的聚类特征指数直方图的最大值,步骤二、通过传感器采集多数据流中第T个数据流元素,根据步骤一获得的k个做聚结构,进行在线做聚,获得k’个聚类特征指数直方图,执行步骤三;其中,T为正整数,T的初始值为1;k’≤k,k和k’均为正整数,步骤三、判断是否接收到对步骤二获得的k’个聚类特征指数直方图发出的查询指令,若是执行步骤六;若否则执行步骤四;步骤四:令T=T+1,通过传感器采集多数据流中第T个数据流元素,并根据步骤二获得的k’个聚类特征指数直方图进行在线做聚,获得更新的k’个聚类特征指数直方图,执行步骤五;步骤五、判断是否接收到对步骤四获得的k’个聚类特征指数直方图发出查询指令,若是执行步骤六;若否则执行步骤七;步骤六、根据k’个聚类特征指数直方图,提取每个聚类特征指数直方图的头节点中的均值项,从而获得k’个聚类特征指数直方图的k’个均值项,执行步骤八;步骤七:令T=T+1,通过传感器采集多数据流中第T个数据流元素,根据上一个数据元素到达后获得的k’个聚类特征指数直方图进行在线做聚,所述的上一个数据元素为第T‑1个数据元素,并获得更新的k’个聚类特征指数直方图,执行步骤五;步骤八、设立离线聚类的类别数目macro_k,根据步骤七获得的k’个聚类特征指数直方图的k’个均值进行离线K均值聚类,通过余弦系数作为度量函数,获得macro_k个离线聚类类别,并执行步骤九;步骤九、根据步骤八获得的macro_k个离线聚类类别,将macro_k个聚类类别中其中含有孤立点或者数据元素个数小于或等于窗口尺寸N的5%的聚类类别作为异常类别,从而获取数据异常检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310364401.0/,转载请声明来源钻瓜专利网。