[发明专利]基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法有效

申请号：	201310567276.3	申请日：	2013-11-13
公开（公告）号：	CN103678492B	公开（公告）日：	2018-01-19
发明（设计）人：	曾剑平;罗邦慧	申请（专利权）人：	复旦大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/44
代理公司：	上海正旦专利代理有限公司31200	代理人：	陆飞,王洁平
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于网络爬虫行为识别缓冲更新策略 web 点击计数方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于Web设计技术领域，涉及一种新型的Web点击计数方法，特别涉及一种在网络爬虫行为模式分析的基础上结合缓冲更新策略而设计的新型计算方法。

背景技术

在许多网站，Web点击计数值所起的作用越来越大。例如在东方财富股吧网站，每个帖子都将帖子的点击次数列在帖子的左边位置，这些点击数值大小对于投资者进行信息获取具有一定的指导价值，错误的计数容易造成误导。

当前互联网上Web页面计数器大都采用简单的计数方法，即一次点击就会使得计数值增加一。这种计数方法正不断地受到网络爬虫的影响，由此导致的结果使得这种反映网民浏览点击的计数变得越来越不可靠。随着各种Web应用技术的发展，网络上出现了大量用于自动获取Web页面信息的网络爬虫[1]。有来自诸如Google、Baidu、Bing等大型互联网搜索引擎的爬虫，也有来自大量开发者或其他应用系统的爬虫。因此这些模拟点击行为的网络爬虫在获得相关Web页面时，也直接地对该页面计数产生“虚高”的结果。

因此在网络爬虫泛滥的现状下，如何正确地更新每个Web点击的计数值成为Web设计中需要考虑的关键问题之一。当前简单的计数方法无法应对爬虫所造成的影响，而解决该问题的关键在于正确区分点击行为是来自网络爬虫或网络用户。对于网络用户的点击浏览行为研究已经有较长的历史，从行为对象的研究来看，主要分为用户身份识别和点击序列模型两个方面[2]。

用户身份识别简单地基于IP地址和客户端的Agent字符串，由于无法强制爬虫程序对自身进行特殊标识，因此，该方法并不能区分爬虫和网络用户。而点击序列模型采用统计模型描述了前后两个点击的条件概率能够描述用户浏览行为在不同链接之间的跳转关系[3]，虽然从统计特征上描述了网络用户在浏览网站时的选择性行为，但是在实际应用于区分爬虫和网络用户时将会遇到如下的问题：（1）对于类似于股吧网站这种网络论坛，由于帖子数量巨大，采用统计模型描述跳转关系时，所需处理的状态空间非常大，造成模型中存在大量稀疏信息。并且帖子不断增加，统计模型对应的状态空间动态增加也给建模造成了较高的复杂度。（2）基于统计模型进行网络用户

和爬虫程序的区分，需要某一序列与统计模型之间的相似性，再根据该相似性和一个相似性阈值进行比较，从而决定分类结果。但是由于相似值是一个似然值，其取值范围不容易估计，导致相似性阈值很难确定，因此在实用性上尚存在较大问题。

由此可见，在进行爬虫行为和网络用户行为的区分上，采用新型的特征和计算判断方法，对于正确判定爬虫行为并进行点击计数更新是非常必要的。本发明正是给出了一种符合这种要求的计算方法。

发明内容

本发明的主要目的是针对Web页面点击计数的准确性问题，提出一种基于爬虫行为识别模型与缓冲更新策略的计数方法。这种计算方法具有一定的智能识别能力，能够克服由于网络爬虫泛滥而对各种Web点击计数所造成的不良影响。这种计算方法充分利用了作为计算机程序的网络爬虫在时间和空间上的爬行模式特征，能够正确识别爬虫的模拟点击行为，并及时进行Web点击计数的更新。

本发明提出的一种基于网络爬虫行为识别与缓冲更新策略的Web点击计数方法，首先建立Web站点的页面组织结构的逻辑表示，综合运用客户端身份识别、Web页面逻辑结构匹配和时间属性进行爬虫行为识别，然后在设定缓冲计数结构的基础上，基于识别结果进行点击计数的更新。具体步骤如下：

（一）建立页面逻辑结构图

（1）输入网站的所有页面文件，对于每个页面文件进行HTML语言解析，提取出每个页面所包含的链接[5]。

（2）根据所提取出来的链接建立页面的逻辑结构图，该图是一个有向图，图中的每个节点表示页面，节点之间的有向连线表示页面之间的链接关系。

（二）进行爬虫行为识别及计数更新

（1）从某个时刻T0开始记录对本网站的所有点击行为，提取客户端的身份标识信息，包括IP地址、Agent字符串。并对其中的每个客户端进行如下步骤的处理：

（2）将用户点击的链接、点击时间记录到一个列表L中；

（3）如果在一定时间TH内没有出现下一次点击，或前后两次的时间间隔大于一定数值，则转下一步骤（即步骤（4）），否则执行上一步骤（即步骤（2）），获得下一次点击行为；

（4）根据页面逻辑结构图，计算L列表所对应的点击序列的空间特征参量β，及时间特征参量θ；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】