[发明专利]一种有效链接获取的网页增量抓取方法有效

申请号：	201510185493.5	申请日：	2015-04-17
公开（公告）号：	CN104794193B	公开（公告）日：	2018-04-03
发明（设计）人：	张雷;刘有力;资帅;韩军华;冯瀚洋;谢俊元	申请（专利权）人：	南京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京瑞弘专利商标事务所(普通合伙)32249	代理人：	陈建和
地址：	210093 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种有效链接获取网页增量抓取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.有效链接获取的网页增量抓取方法，其特征是包括如下步骤：

1) 有效链接获取阶段：

a 初始化抓取网页链接，指定抓取入口URL；

b 判断入口网页链接是否具有分页；

c 计算入口网页与其分页的公共链接；

d 通过公共链接获取有效链接；

e 结束；

2) 增量抓取阶段：

a 构建布隆过滤器，并通过布隆过滤器判断步骤 1)-d 中有效网页链接是否已经抓取；

b 通过 HTTP 请求抓取未抓取的网页；

c 结束；

步骤 1)-a 中抓取入口 URL 是指抓取程序以此 URL开始逐层抓取；

步骤 1)-b 中分页是指在网页中由于信息太多采用分页形式显示，每一页显示一部分信息；

分页的具体判断方法如下：

（1）获取入口 URL 页面中所有的链接，保存集合 PageAllUrl 中；

（2）通过匹配 PageAllUr l 中每个 URL 链接文本中是否为“下一页”或“下页”分页标志来判断是否有分页；

步骤 1)-c 中公共链接是指入口 URL 页面与其分页网页中相同的 URL，其具体计算方法如下：

（1）获取入口 URL 分页网页中所有的链接，保存集合 NextPageAllUrl 中；

（2）比较集合 PageAllUrl 和集合 NextPageAllUrl ，找出它们相同的 URL 并保存在集合 CommonUrl 中，即公共链接集合 CommonUrl = PageAllUrl ∩ NextPageAllUrl；

步骤 1)-d 中有效链接是指非菜单、导航、广告无效链接，其具体方法如下：

（1）在步骤 1)-b 中判断入口 URL 是否具有分页，如有执行（2），否则执行（3）；

（2）从集合PageAllUrl 中链接去掉集合 CommonUrl 中链接，并将结果保存在集合 EffectiveUrl 中，即有效链接集合 EffectiveUrl=PageAllUrl-CommonUrl ；

（3）分析入口 URL 链接，获取其主机域名 HostUrl；

（4）判断集合 PageAllUrl 是否为空，如果不为空则执行（5），否则执行（8）；

（5）从集合 PageAllUrl 中取出一个 Url；

（6）判断 Url 是否是入口 URL 的前缀，如果是则执行（7），否则执行（4）；

（7）将 Url 加入有效链接集合 EffectiveUrl 中，执行（4）；

（8）结束。

2.根据权利要求 1 所述的有效链接获取的网页增量抓取方法，其特征是步骤 2)-a 和 2)-b 中构建布隆过滤器是指设定布隆过滤器的大小、误判率以及随机哈希函数：设置布隆过滤器大小为 90000000，误判率为 0.000001，随机哈希函数为 MD5Hash；

其判断方法具体如下：

1) 初始化布隆过滤器 BloomFilter；

2) 判断集合 EffectiveUrl 是否为空，如果不为空则执行 3)，否则执行 7)；

3) 从集合 EffectiveUrl 中取出一个 Url；

4) 判断Url 是否在 BloomFilter 中，如果在则执行 2)，否则执行 5)；

5) 通过 HTTP 请求抓取 Url 链接的网页信息；

6) 将 Url 保存到 BloomFilter 中，执行 2)；

7) 结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京大学，未经南京大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510185493.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种有效链接获取的网页增量抓取方法有效

专利文献下载