[发明专利]基于MapReduce的网站运行状态监控与异常检测无效
申请号: | 201210095037.8 | 申请日: | 2012-03-31 |
公开(公告)号: | CN102724059A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 邹权;唐振坤;蒋文瑞;林琛 | 申请(专利权)人: | 常熟市支塘镇新盛技术咨询服务有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 苏州广正知识产权代理有限公司 32234 | 代理人: | 张利强 |
地址: | 215500 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 mapreduce 网站 运行 状态 监控 异常 检测 | ||
技术领域
基于MapReduce的网站运行状态监控与异常检测属于通过对网站日志的挖掘处理改善网站服务性能的技术领域。
背景技术
网站,因特网上一块固定的面向全世界发布消息的地方,由域名(也就是网站地址)和网站空间构成,通常包括主页和其他具有超链接文件的页面。它的出现为现代社会带来了不可替代的作用,如宣传自我形象、提供丰富便捷的信息,为商业扩展业务渠道等等.为了让网站能够长期稳定地运行在Internet上,让使用者在瞬息万变的信息社会中抓住更多的网络商机,网站的维护与改善成为至关重要的环节。
网站的维护大多基于网站的访问日志,日志记录了所有用户的访问行为,可以有效地找出用户和网站的交互规律,从而对提高网站的关注度以及改善网站服务(包括改善链接的有效性和利用缓存提高网站访问速度等)都有重要的作用。
传统的日志挖掘处理多采用机器学习(黎铭等, 2004)及可视化结合人工处理的方法。尤其是最近机器学习研究领域的最新方法已经被用于日志数据挖掘,如基于反馈的主动学习(Georges et al, 2010)。由于反馈信息较难获得,这种方法通常应用于搜索引擎的个性化推荐系统。国内这方面也有较好的工作,如吉林大学的刘大有、杨博教授等利用机器学习方法识别到日志中的重复任务,进而节省运算时间(李嘉菲等, 2007);福州大学的陈国龙教授利用机器学习和优化方法在日志文件中检测入侵,然而这些传统的方法没有利用并行机制,注定无法应用于访问量巨大的门户网站。而且互联网信息瞬息万变,传统分析所带来的延时大大降低的网络信息的价值。在这样的情况下,提出一种实时高效、准确的分析策略,就显得尤为重要。
MapReduce是Google提出的一种并行编程模型,用于大规模数据集(可以大于1TB)的并行运算。MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性和分布性,对于这些分布的数据分别分配任务进行处理,以达到并行化的处理效果,即使待处理数据飞速增长,只需要动态的增加集群的节点数目即可,而且节点不需要是具特殊功能的高性能机器,只需要普通的商用机即可。如何利用这种成本低廉的并行处理机制来对网站高效地处理分析,进而达到实时地监控网站的运行状态,检测异常行为,是本发明所要解决的关键问题。
发明内容
传统的日志分析方法无法解决访问量巨大的门户网站,而且即使能处理大量的日志,处理时间的延缓性会大大降低日志分析的潜在价值。而且面对非结构化的日志文件,采取何种分析策略,分析日志的哪些方面,对于网站的建设改善亦有至关重要的影响。针对这些问题,本发明采用MapReduce并行编程模型,从海量的日志文件中抓取最佳信息点,并采用有效的策略,高效、准确的捕捉出访问过程中的异常行为。
本发明的特征在于,它完成状态监控与异常检测,并依次采用以下步骤:
1.状态监控
步骤(1.1):分析异常状态码,采用线性回归策略自动汇报异常情况
日志记录中的状态码能有效反应出网站的运行状态,常见的异常状态码有:
3xx - 重定向
客户端浏览器必须采取更多操作来实现请求。例如,浏览器可能不得不请求服务器上的不同的页面,或通过代理服务器重复该请求。常见:301(永久定向)、302(临时定向)
4xx - 客户端错误
发生错误,客户端似乎有问题。例如,客户端请求不存在的页面,客户端未提供有
效的身份验证信息。常见:404(未找到,不存在)
5xx - 服务器错误
通过日志抽出每日这三类异常状态码,观察网站的运行状态,常见作用如:
找出死链接
找出临时重定向(搜索引擎蜘蛛不喜欢临时重定向) 对于404,需要检查这个文件是否存在,如果文件存在而返回了404 则可能是因为服务器不稳定因素造成,可能是服务器本身问题也可能是被攻击。如果文件本身就不存在而蜘蛛还会去爬那个不存在的页面,则是因为还有其他页面有链接到那个不存在的页面
步骤(1.2):每秒访问次数和流量统计,并计算当日平均每秒访问次数和流量统,及排名前10的每秒访问次数和流量
访问流量的汇报用于告诉预报是否有采集程序在大量抓取网站数据,这种行为会严重影响网站的服务性能,通过报告每日排名前10的每秒访问次数和流量及平均指标,能直观的反应出是否有采集程序的出现
步骤(1.3):蜘蛛爬虫统计分析
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常熟市支塘镇新盛技术咨询服务有限公司,未经常熟市支塘镇新盛技术咨询服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210095037.8/2.html,转载请声明来源钻瓜专利网。