[发明专利]一种网页链接库的更新方法及系统无效
申请号: | 201110362064.2 | 申请日: | 2011-11-15 |
公开(公告)号: | CN103106221A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 陈华清;于志伟;吕晴 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 链接 更新 方法 系统 | ||
技术领域
本发明涉及互联网领域,更具体的说,是涉及一种网页链接库的更新方法及系统。
背景技术
随着互联网的迅速发展,互联网的网页数量越来越庞大,互联网网页的收集也越来越重要,现有的网页抓取方法,是根据一些初始链接集合出发,抓取这些初始链接的原始网页并提取所述原始网页上的新链接,并抓取所述新链接所指的网页,如此不断循环迭代抓取互联网上的网页。
所述网页抓取方法是基于网页链接库实现网页抓取。所述网页链接库中存储着各个链接以及各个链接的信息,所述信息包括各个链接对应的抓取状态以及各个链接在所述网页链接库中的具体位置和链接的长度。在抓取网页的过程中,原有被选取的初始链接的抓取状态会发现改变,而且会不断发现到新链接,所述初始链接的抓取状态、新链接以及所述新链接的抓取状态都需要更新到所述网页链接库中。所述链接的抓取状态包括:链接的抓取时间、该链接的抓取次数、是否抓取成功以及该链接的签名。所述链接的签名是指将链接的统一资源定位符这个字符串按照一定的算法映射到一个64位无符号整型值。
所述网页链接库中的链接是按照链接的签名进行排序的,在对所述网页链接库进行更时,对不存在于所述网页链接库中的新链接,根据该新链接的签名将其写入所述网页链接库中,如果该新链接的签名处于所述网页链接库中某两个链接之间,则会将所述新链接插入到这两个链接之间,并且其他链接的位置相应的向后移,这期间需要很长时间,甚至长达2、3个小时,导致了所述网页链接库更新效率低。
发明内容
有鉴于此,本发明提供了一种网页链接库的更新方法及系统,以克服现有技术中由于更新时间太长导致所述网页链接库更新效率低的问题。
为实现上述目的,本发明提供如下技术方案:
一种网页链接库的更新方法,所述网页链接库中各个链接是按照对应的抓取顺序进行排序,包括步骤:
A、获取包括初始链接和新链接的待更新链接;
B、判断所述待更新链接是否属于所述网页链接库,如果是,则进入步骤C,如果否,则进入步骤D;
C、根据所述待更新链接的当前抓取状态更新所述网页链接库中具有所述抓取顺序的链接的初始抓取状态;
D、按照与所述待更新链接对应的抓取顺序,将所述待更新链接更新至所述网页链接库中已有链接序列的后面。
一种网页链接库的更新系统,所述网页链接库中各个链接是按照对应的抓取顺序进行排序的,包括:
获取模块,用于获取包括初始链接和新链接的待更新链接;
判断模块,用于判断所述待更新链接是否属于所述网页链接库;
第一更新模块,用于在所述判断模块的判断结果为是的情况下,根据所述待更新链接的当前抓取状态更新所述网页链接库中具有所述抓取顺序的链接的初始抓取状态;
第二更新模块,用于在所述判断模块的判断结果为否的情况下,按照与所述待更新链接对应的抓取顺序,将所述待更新链接更新至所述网页链接库中已有链接序列的后面。
经由上述的技术方案可知,采用本发明实施例,首先获取包括初始链接以及新链接的待更新链接,并对于各个待更新链接进行判断,判断所述待更新链接是否属于所述网页链接库,如果是,则直接对所述网页链接库中对应的初始链接的初始抓取状态进行更新,如果否,则将所述待更新链接更新至所述网页链接库中链接序列的最后,这样所述待更新链接不会因为抓取顺序在某两个已存在于所述网页链接库中的链接之间,出现网页链接库中其他链接在所述网页链接库中的顺序发生变化,而导致的更新效率低的问题,从而提高了所述网页链接库更新的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的第一种网页链接库更新方法流程图;
图2为本发明实施例公开的第二种网页链接库更新方法流程图;
图3为本发明实施例公开的第一种网页链接库的更新系统的结构示意图;
图4为本发明实施例公开的第二种网页链接库的更新系统的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词的说明、简写或缩写总结如下:
URL:Uniform/Universal Resource Locator,统一资源定位符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110362064.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:办证信息自助采集设备及其方法
- 下一篇:一种空地图像制导武器目标识别方法