[发明专利]网页的爬取方法和装置在审

申请号：	201710591483.0	申请日：	2017-07-19
公开（公告）号：	CN110020064A	公开（公告）日：	2019-07-16
发明（设计）人：	邢琰	申请（专利权）人：	北京国双科技有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/951;G06F16/955;G06F16/958
代理公司：	北京康信知识产权代理有限责任公司 11240	代理人：	赵囡囡;褚敏
地址：	100086 北京市海淀区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种网页的爬取方法和装置。其中，该方法包括：爬取目标网站的根URL下的子网页URL；利用第一集合和第二集合对子网页URL进行判断得到第一判断结果，其中，第一集合用于判断子网页URL对应的网页是否为目录页，第二集合用于判断子网页URL对应的网页是否为内容页；利用预定类对子网页URL进行判断得到第二判断结果，其中，第二判断结果用于指示子网页URL为目录页或者内容页；如果第一判断结果和第二判断结果一致，则按照第一判断结果继续对子网页URL进行爬取；如果第一判断结果和第二判断结果不一致，则记录子网页URL。解决了确定网站URL规则的效率低的技术问题，提高了处理的效率。
搜索关键词：	判断结果网页子网页集合方法和装置目录页内容页目标网站网站URL 不一致记录
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种网页的爬取方法，其特征在于，包括：爬取目标网站的根URL下的子网页URL；利用第一集合和第二集合对所述子网页URL进行判断得到第一判断结果，其中，所述第一集合用于判断所述子网页URL对应的网页是否为目录页，所述第二集合用于判断所述子网页URL对应的网页是否为内容页；利用预定类对所述子网页URL进行判断得到第二判断结果，其中，所述第二判断结果用于指示所述子网页URL为所述目录页或者所述内容页；如果所述第一判断结果和所述第二判断结果一致，则按照所述第一判断结果对所述子网页URL进行爬取；如果所述第一判断结果和所述第二判断结果不一致，则记录所述子网页URL。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司，未经北京国双科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201710591483.0/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]网页的爬取方法和装置在审

专利文献下载