[发明专利]一种抓取网站确定方法及装置有效

专利信息
申请号: 201210356892.X 申请日: 2012-09-21
公开(公告)号: CN102880698A 公开(公告)日: 2013-01-16
发明(设计)人: 张鹏;顾淼;余红 申请(专利权)人: 新浪网技术(中国)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 100080 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 抓取 网站 确定 方法 装置
【说明书】:

技术领域

发明涉及互联网技术领域,尤其涉及一种抓取网站确定方法及装置。

背景技术

所谓抓取网站,就是抓取网站上发布的大量内容信息,甚至是整个网站上发布的所有内容信息,并保存到本地,使得即便网络断开,或者被抓取的网站被关闭,抓取下来的网站依然可以浏览。

目前,抓取网站所采用的方式,主要为通过称作网络蜘蛛的应用程序自动实现网站抓取,即网络蜘蛛通过网页链接来寻找网页,从网站的某一页面(通常是首页)开始访问,获取网页内容,并查询到在该网页中的其它链接地址,然后通过这些链接地址访问对应的下一个网页,如此循环下去,直到把这个网站所有网页上发布的内容信息都抓取完为止。

另外,随着Open API(Open Application Programming Interface,开放应用编程接口)技术的发展,一种类似网络蜘蛛的通过API抓取网站的方式出现,采用该方式可以非正常的获取网站上的大量用户信息,以及模拟用户操作。

基于现有技术中的上述抓取网站的操作,一方面,导致网站的大量隐私信息被非法获取,如用户信息,另一方面,网站被频繁的访问,将消耗网站的大量带宽资源以及应用服务器的处理资源,从而影响对其他用户的正常访问的处理。

为了解决上述问题,现有技术中提出了一些针对判定抓取网站的应用终端的方法,例如,可以通过对访问日志中的User Agent(用户代理)进行判断,如果UserAgent表征的不是一般用户所使用的客户端,而是某些服务器上的定时调用程序,则该Uer Agent所属的应用终端很可能为运行抓站蜘蛛程序的终端,即用于抓取网站的应用终端;又如,基于访问网站的应用终端的IP地址,通过分析IP地址来源可以判断出部分应用终端的访问意图,如IP地址属于对手公司的机器IP地址的应用终端,则很可能为抓取网站的应用终端。

然而,基于User Agent的判定方式,由于User Agent容易被篡改,所以容易导致无法确定出User Agent已被篡改的抓取网站的应用终端;基于访问IP地址的判定方式,仅能确定出少部分使用可疑IP地址的应用终端,并且这一部分应用终端也不一定在进行抓取网站的操作,而可能是正常的访问。

综上可知,现有技术中还无法准确的对抓取网站的应用终端进行判定。

发明内容

本发明实施例提供一种抓取网站确定方法及装置,用以解决现有技术中存在确定抓取网站的应用终端不准确的问题。

本发明实施例提供一种抓取网站确定方法,包括:

获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;

根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;

根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。

本发明实施例还提供一种抓取网站确定装置,包括:

获取单元,用于获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;

第一确定单元,用于根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;

第二确定单元,用于根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。

本发明有益效果包括:

本发明实施例提供的方法中,在确定一个应用终端是否为抓取网站的应用终端时,首先获取该应用终端在设定时间段内访问指定网站的时刻,以及访问指定网站的次数,并根据获取的访问指定网站的时刻,确定该应用终端在设定时间段内访问指定网站的时间离散度,然而根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该应用终端是否为抓取网站的应用终端。由于一个应用终端在设定时间段内访问网站的时间离散度和次数,均能够表征应用终端访问网站的行为特性,并且应用终端在进行抓取网站操作时访问网站的时间离散度和次数,与应用终端正常访问网站的时间离散度和次数存在差异,所以,通过应用终端访问网站的时间离散度与离散度阈值的大小关系,以及访问网站的次数与访问次数阈值的大小关系,能够更准确的确定该应用终端是否为抓取网站的应用终端。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210356892.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top