[发明专利]一种网页爬虫系统及方法无效
申请号: | 201010189998.6 | 申请日: | 2010-05-25 |
公开(公告)号: | CN102262635A | 公开(公告)日: | 2011-11-30 |
发明(设计)人: | 肖小剑;李天武 | 申请(专利权)人: | 北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;王漪 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种网页爬虫系统及方法,解决现有技术中不能有效提取动态URL的技术缺陷,其中该方法包括:设置一第一去重队列;接收一目标页面;采用静态爬虫对该目标页面进行爬行;将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL;将该动态URL提交到该第一去重队列;采用动态爬虫继续对该第一去重队列中的动态URL进行爬行。本发明克服了现有技术中无法有效提取动态URL的技术缺陷,有效提高了网页搜索效率和性能,有利于维护网页的安全应用。 | ||
搜索关键词: | 一种 网页 爬虫 系统 方法 | ||
【主权项】:
一种网页爬虫方法,其特征在于,包括:设置一第一去重队列;接收一目标页面;采用静态爬虫对该目标页面进行爬行;将该目标页面中该静态爬虫分析不了的统一资源定位符(URL)作为动态URL;将该动态URL提交到该第一去重队列;采用动态爬虫继续对该第一去重队列中的动态URL进行爬行。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司,未经北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010189998.6/,转载请声明来源钻瓜专利网。
- 上一篇:数字电视接收方法及装置
- 下一篇:治疗计划的顺序优化