[发明专利]用于抓取网络商城中网页的爬虫算法无效

专利信息
申请号: 201210571819.4 申请日: 2012-12-26
公开(公告)号: CN102982184A 公开(公告)日: 2013-03-20
发明(设计)人: 陈志德 申请(专利权)人: 福建师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 福州元创专利商标代理有限公司 35100 代理人: 蔡学俊
地址: 350007 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种用于抓取网络商城中网页的爬虫算法,该算法根据初始链接采集网络商城上的页面,将页面下的种子集添加到url队列中;根据初始链接下载页面,并将新链接添加到list队列中,且对页面进行相关度的计算。根据页面的深度,以及页面与主题的相关程度,设置相应的链接值;对于存在list队列和url队列中的url,比较url队列的潜在系数和list队列的潜在系数,来对url队列的潜在系数进行更新;对于存在list队列但不在url队列中的url,按照潜在系数插入到url队列中;最后根据当前页面的相关程度,对深度进行设置。该算法有利于对网络商城中与主题相关的网页进行精确抓取,而且算法设计合理,运行效果好。
搜索关键词: 用于 抓取 网络商城 网页 爬虫 算法
【主权项】:
一种用于抓取网络商城中网页的爬虫算法,其特征在于:包括以下步骤:步骤1:设置抓取的宽度、深度以及总数,所述宽度表示不相关页面链接允许访问的数目,所述深度表示还可以沿着链接继续往前访问的深度,所述总数表示访问网页总数上限值S;输入初始链接;步骤2:建立url队列,所述url队列用于存储要爬取的初始链接,将url种子集添加到所述url队列中;步骤3:若访问页面数小于访问网页总数上限值S,或者url队列的长度不为零,即url队列不为空,则根据所述初始链接下载对应的页面,否则结束;步骤4:抽取被新爬取到的链接到list队列中,并计算页面与主题的相关度,然后保存下载到的页面;所述list队列用于存储爬取到的链接;步骤5:判断页面的深度,若页面的深度大于零,则执行步骤6,否则返回步骤3;步骤6:判断页面是否与主题相关,若与主题相关,则增加所述页面前向链接的链接值,否则降低所述页面前向链接的链接值;步骤7:判断url是否在list队列中,若在list队列中,则执行步骤8,否则返回到步骤3;步骤8:判断url是否在url队列中,若在url队列中,比较url队列的相关系数和list队列的相关系数的大小,两者中较大的取代url队列中的相关系数;否则按照相关系数的大小插入到url队列中;步骤9:若当前页面相关,则深度为depth(page),否则深度为depth(page)‑1,depth(page)指当前页面的深度;步骤10:从list队列中取出下一条url,然后从步骤7开始执行;步骤11:算法结束,输出主题相关网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201210571819.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top