[发明专利]用于抓取网络商城中网页的爬虫算法无效

申请号：	201210571819.4	申请日：	2012-12-26
公开（公告）号：	CN102982184A	公开（公告）日：	2013-03-20
发明（设计）人：	陈志德	申请（专利权）人：	福建师范大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350007 ***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种用于抓取网络商城中网页的爬虫算法，该算法根据初始链接采集网络商城上的页面，将页面下的种子集添加到url队列中；根据初始链接下载页面，并将新链接添加到list队列中，且对页面进行相关度的计算。根据页面的深度，以及页面与主题的相关程度，设置相应的链接值；对于存在list队列和url队列中的url，比较url队列的潜在系数和list队列的潜在系数，来对url队列的潜在系数进行更新；对于存在list队列但不在url队列中的url，按照潜在系数插入到url队列中；最后根据当前页面的相关程度，对深度进行设置。该算法有利于对网络商城中与主题相关的网页进行精确抓取，而且算法设计合理，运行效果好。
搜索关键词：	用于抓取网络商城网页爬虫算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种用于抓取网络商城中网页的爬虫算法，其特征在于：包括以下步骤：步骤1：设置抓取的宽度、深度以及总数，所述宽度表示不相关页面链接允许访问的数目，所述深度表示还可以沿着链接继续往前访问的深度，所述总数表示访问网页总数上限值S；输入初始链接；步骤2：建立url队列，所述url队列用于存储要爬取的初始链接，将url种子集添加到所述url队列中；步骤3：若访问页面数小于访问网页总数上限值S，或者url队列的长度不为零，即url队列不为空，则根据所述初始链接下载对应的页面，否则结束；步骤4：抽取被新爬取到的链接到list队列中，并计算页面与主题的相关度，然后保存下载到的页面；所述list队列用于存储爬取到的链接；步骤5：判断页面的深度，若页面的深度大于零，则执行步骤6，否则返回步骤3；步骤6：判断页面是否与主题相关，若与主题相关，则增加所述页面前向链接的链接值，否则降低所述页面前向链接的链接值；步骤7：判断url是否在list队列中，若在list队列中，则执行步骤8，否则返回到步骤3；步骤8：判断url是否在url队列中，若在url队列中，比较url队列的相关系数和list队列的相关系数的大小，两者中较大的取代url队列中的相关系数；否则按照相关系数的大小插入到url队列中；步骤9：若当前页面相关，则深度为depth(page)，否则深度为depth(page)‑1，depth(page)指当前页面的深度；步骤10：从list队列中取出下一条url，然后从步骤7开始执行；步骤11：算法结束，输出主题相关网页。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福建师范大学，未经福建师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210571819.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]用于抓取网络商城中网页的爬虫算法无效

专利文献下载