[发明专利]用于抓取网络商城中网页的爬虫算法无效
申请号: | 201210571819.4 | 申请日: | 2012-12-26 |
公开(公告)号: | CN102982184A | 公开(公告)日: | 2013-03-20 |
发明(设计)人: | 陈志德 | 申请(专利权)人: | 福建师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350007 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种用于抓取网络商城中网页的爬虫算法,该算法根据初始链接采集网络商城上的页面,将页面下的种子集添加到url队列中;根据初始链接下载页面,并将新链接添加到list队列中,且对页面进行相关度的计算。根据页面的深度,以及页面与主题的相关程度,设置相应的链接值;对于存在list队列和url队列中的url,比较url队列的潜在系数和list队列的潜在系数,来对url队列的潜在系数进行更新;对于存在list队列但不在url队列中的url,按照潜在系数插入到url队列中;最后根据当前页面的相关程度,对深度进行设置。该算法有利于对网络商城中与主题相关的网页进行精确抓取,而且算法设计合理,运行效果好。 | ||
搜索关键词: | 用于 抓取 网络商城 网页 爬虫 算法 | ||
【主权项】:
一种用于抓取网络商城中网页的爬虫算法,其特征在于:包括以下步骤:步骤1:设置抓取的宽度、深度以及总数,所述宽度表示不相关页面链接允许访问的数目,所述深度表示还可以沿着链接继续往前访问的深度,所述总数表示访问网页总数上限值S;输入初始链接;步骤2:建立url队列,所述url队列用于存储要爬取的初始链接,将url种子集添加到所述url队列中;步骤3:若访问页面数小于访问网页总数上限值S,或者url队列的长度不为零,即url队列不为空,则根据所述初始链接下载对应的页面,否则结束;步骤4:抽取被新爬取到的链接到list队列中,并计算页面与主题的相关度,然后保存下载到的页面;所述list队列用于存储爬取到的链接;步骤5:判断页面的深度,若页面的深度大于零,则执行步骤6,否则返回步骤3;步骤6:判断页面是否与主题相关,若与主题相关,则增加所述页面前向链接的链接值,否则降低所述页面前向链接的链接值;步骤7:判断url是否在list队列中,若在list队列中,则执行步骤8,否则返回到步骤3;步骤8:判断url是否在url队列中,若在url队列中,比较url队列的相关系数和list队列的相关系数的大小,两者中较大的取代url队列中的相关系数;否则按照相关系数的大小插入到url队列中;步骤9:若当前页面相关,则深度为depth(page),否则深度为depth(page)‑1,depth(page)指当前页面的深度;步骤10:从list队列中取出下一条url,然后从步骤7开始执行;步骤11:算法结束,输出主题相关网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建师范大学,未经福建师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210571819.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种机架固定板
- 下一篇:一种双弯单矫机组的导轨组件