[发明专利]一种抓取网站确定方法及装置有效
申请号: | 201210356892.X | 申请日: | 2012-09-21 |
公开(公告)号: | CN102880698A | 公开(公告)日: | 2013-01-16 |
发明(设计)人: | 张鹏;顾淼;余红 | 申请(专利权)人: | 新浪网技术(中国)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 抓取 网站 确定 方法 装置 | ||
技术领域
本发明涉及互联网技术领域,尤其涉及一种抓取网站确定方法及装置。
背景技术
所谓抓取网站,就是抓取网站上发布的大量内容信息,甚至是整个网站上发布的所有内容信息,并保存到本地,使得即便网络断开,或者被抓取的网站被关闭,抓取下来的网站依然可以浏览。
目前,抓取网站所采用的方式,主要为通过称作网络蜘蛛的应用程序自动实现网站抓取,即网络蜘蛛通过网页链接来寻找网页,从网站的某一页面(通常是首页)开始访问,获取网页内容,并查询到在该网页中的其它链接地址,然后通过这些链接地址访问对应的下一个网页,如此循环下去,直到把这个网站所有网页上发布的内容信息都抓取完为止。
另外,随着Open API(Open Application Programming Interface,开放应用编程接口)技术的发展,一种类似网络蜘蛛的通过API抓取网站的方式出现,采用该方式可以非正常的获取网站上的大量用户信息,以及模拟用户操作。
基于现有技术中的上述抓取网站的操作,一方面,导致网站的大量隐私信息被非法获取,如用户信息,另一方面,网站被频繁的访问,将消耗网站的大量带宽资源以及应用服务器的处理资源,从而影响对其他用户的正常访问的处理。
为了解决上述问题,现有技术中提出了一些针对判定抓取网站的应用终端的方法,例如,可以通过对访问日志中的User Agent(用户代理)进行判断,如果UserAgent表征的不是一般用户所使用的客户端,而是某些服务器上的定时调用程序,则该Uer Agent所属的应用终端很可能为运行抓站蜘蛛程序的终端,即用于抓取网站的应用终端;又如,基于访问网站的应用终端的IP地址,通过分析IP地址来源可以判断出部分应用终端的访问意图,如IP地址属于对手公司的机器IP地址的应用终端,则很可能为抓取网站的应用终端。
然而,基于User Agent的判定方式,由于User Agent容易被篡改,所以容易导致无法确定出User Agent已被篡改的抓取网站的应用终端;基于访问IP地址的判定方式,仅能确定出少部分使用可疑IP地址的应用终端,并且这一部分应用终端也不一定在进行抓取网站的操作,而可能是正常的访问。
综上可知,现有技术中还无法准确的对抓取网站的应用终端进行判定。
发明内容
本发明实施例提供一种抓取网站确定方法及装置,用以解决现有技术中存在确定抓取网站的应用终端不准确的问题。
本发明实施例提供一种抓取网站确定方法,包括:
获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
本发明实施例还提供一种抓取网站确定装置,包括:
获取单元,用于获取应用终端在设定时间段内访问指定网站的时刻,以及访问所述指定网站的次数;
第一确定单元,用于根据获取的访问所述指定网站的时刻,确定所述应用终端在设定时间段内访问所述指定网站的时间离散度;
第二确定单元,用于根据确定的所述时间离散度与离散度阈值的大小关系,以及获取的所述次数与访问次数阈值的大小关系,确定所述应用终端是否为抓取网站的应用终端。
本发明有益效果包括:
本发明实施例提供的方法中,在确定一个应用终端是否为抓取网站的应用终端时,首先获取该应用终端在设定时间段内访问指定网站的时刻,以及访问指定网站的次数,并根据获取的访问指定网站的时刻,确定该应用终端在设定时间段内访问指定网站的时间离散度,然而根据确定的时间离散度与离散度阈值的大小关系,以及获取的次数与访问次数阈值的大小关系,确定该应用终端是否为抓取网站的应用终端。由于一个应用终端在设定时间段内访问网站的时间离散度和次数,均能够表征应用终端访问网站的行为特性,并且应用终端在进行抓取网站操作时访问网站的时间离散度和次数,与应用终端正常访问网站的时间离散度和次数存在差异,所以,通过应用终端访问网站的时间离散度与离散度阈值的大小关系,以及访问网站的次数与访问次数阈值的大小关系,能够更准确的确定该应用终端是否为抓取网站的应用终端。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新浪网技术(中国)有限公司,未经新浪网技术(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210356892.X/2.html,转载请声明来源钻瓜专利网。