[发明专利]一种自动进行网站分析的方法及装置在审

专利信息
申请号: 201210232731.X 申请日: 2012-07-05
公开(公告)号: CN103530297A 公开(公告)日: 2014-01-22
发明(设计)人: 石靖岚 申请(专利权)人: 北京百度网讯科技有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京鸿德海业知识产权代理事务所(普通合伙) 11412 代理人: 袁媛
地址: 100085 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 自动 进行 网站 分析 方法 装置
【说明书】:

【技术领域】

发明涉及数据处理技术,特别涉及一种自动进行网站分析的方法及装置。

【背景技术】

网站向用户提供服务,是通过各种各样的网页文件实现的,而这些网页文件在网站上,是通过各种目录进行组织的。在网站提供服务的过程中,作为网站的维护人员,很可能需要对网站中提供服务的网页文件进行修改,包括对网页文件本身进行修改,或者对通向网页文件的路径(即通向网页文件的各个目录)进行修改,这导致网站在运行一段时间以后,结构就可能发生很大的变化。以往在网站规模不大的情况下,还可以通过人工的方式来了解网站结构发生的变化,以及时了解网站的情况,监控网站的运行。但是随着互联网技术的发展,网站提供的服务越来越多,规模也越来越大,这使得仅靠人工的手段,就很难窥探整个网站的全貌了,因此难免造成网站监控的困难,导致网站运行的效率降低。

【发明内容】

本发明所要解决的技术问题是提供一种自动进行网站分析的方法及装置,以提高网站运行的效率。

本发明为解决技术问题而采用的技术方案是提供一种自动进行网站分析的方法,包括:A.从到达网站的请求数据中获取一个以上的链接地址;B.利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;C.将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。

根据本发明之一优选实施例,所述步骤A中通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。

根据本发明之一优选实施例,所述步骤B包括:B1.将获取的链接地址拆分为主域和各级目录的形式;B2.利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。

根据本发明之一优选实施例,根据统计到的同级目录中的出现值确定同级目录的可能取值的步骤包括:当统计到的同级目录中的出现值为数字型时,确定该级目录的可能取值的下限为统计到的出现值中的最小值,该级目录的可能取值的上限为统计到的出现值中的最大值;当统计到的同级目录中的出现值为枚举型时,确定该级目录的可能取值为统计到的每个出现值;当统计到的同级目录中的出现值为字符串型时,确定该级目录的可能取值为任意字符串。

根据本发明之一优选实施例,所述步骤C包括:将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对;当比对结果中存在属于历史值构成的链接地址范围而不属于当前值构成的链接地址范围内的历史链接地址时,向所述历史链接地址发出访问请求,并且在所述访问请求无法返回可访问页面时,将该历史链接地址作为失效链接地址;当比对结果中存在属于当前值构成的链接地址范围而不属于历史值构成的链接地址范围内的当前链接地址时,将该当前链接地址作为新增链接地址。

根据本发明之一优选实施例,所述方法在所述步骤C前进一步包括:在获取的链接地址中统计相同链接地址传递的各个参数组合及每个组合中各参数出现值,将各个参数组合作为所述网站中与获取的链接地址对应的文件的可接收参数,并根据每个组合中各参数出现值确定所述可接收参数的可能取值;并且,所述方法在所述步骤C中进一步将所述可接收参数与历史参数进行比对,将所述可接收参数的可能取值与历史参数值进行比对以判断所述网站中的文件是否存在参数变更。

根据本发明之一优选实施例,所述方法在步骤A后进一步包括:将获取的链接地址与预设的异常关键字列表进行匹配验证,并将匹配的链接地址所对应的请求数据作为异常访问数据以给出预警提示。

本发明还提供了一种自动进行网站分析的装置,包括:抓取单元,用于从到达网站的请求数据中获取一个以上的链接地址;确定单元,用于利用获取的链接地址确定所述网站包含的每个主域下的各级目录的可能取值作为各级目录的当前值;比对单元,用于将各级目录的当前值构成的链接地址范围与各级目录的历史值构成的链接地址范围进行比对以判断所述网站是否存在新增链接地址或失效链接地址。

根据本发明之一优选实施例,所述抓取单元通过旁路镜像系统抓取到达网站的请求数据,并从所述请求数据中提取一个以上的链接地址。

根据本发明之一优选实施例,所述确定单元包括:拆分单元,用于将获取的链接地址拆分为主域和各级目录的形式;第一统计单元,用于利用相同主域的链接地址统计该主域下的同级目录中的出现值,并根据统计到的同级目录中的出现值确定同级目录的可能取值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210232731.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top