[发明专利]一种网页链接库的更新方法及系统无效

专利信息
申请号: 201110362064.2 申请日: 2011-11-15
公开(公告)号: CN103106221A 公开(公告)日: 2013-05-15
发明(设计)人: 陈华清;于志伟;吕晴 申请(专利权)人: 盛乐信息技术(上海)有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 逯长明;王宝筠
地址: 201203 上海市浦东新区*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网页 链接 更新 方法 系统
【权利要求书】:

1.一种网页链接库的更新方法,其特征在于,所述网页链接库中各个链接是按照对应的抓取顺序进行排序,包括步骤:

A、获取包括初始链接和新链接的待更新链接;

B、判断所述待更新链接是否属于所述网页链接库,如果是,则进入步骤C,如果否,则进入步骤D;

C、根据所述待更新链接的当前抓取状态更新所述网页链接库中具有所述抓取顺序的链接的初始抓取状态;

D、按照与所述待更新链接对应的抓取顺序,将所述待更新链接更新至所述网页链接库中已有链接序列的后面。

2.根据权利要求1所述方法,其特征在于,所述抓取顺序采用抓取顺序变量值表示,步骤D具体为:

D11、将所述待更新链接的抓取顺序变量值设置为已扫描的不存在于所述网页链接库中的待更新链接的抓取顺序变量值与固定值之和,所述固定值是指所述网页链接库中两个相邻初始链接对应的抓取顺序变量值之差;

D12、将设置后的所述待更新链接更新至所述网页链接库中已有链接序列的后面。

3.根据权利要求2所述方法,其特征在于,所述抓取顺序变量值为静态变量,所述预设值为零,所述步骤B具体为:

判断所述待更新链接的抓取顺序变量值是否大于零,如果是,则进入步骤C,如果否,则进入步骤D。

4.根据权利要求2所述方法,其特征在于,所述步骤A还包括:

将各个新链接对应的抓取顺序变量值设置为预设值,所述预设值是指小于所述网页链接库中已存在链接的抓取顺序变量值的最小值或指大于所述网页链接库中已存在链接的抓取顺序变量值的最大值;

相应的,步骤B具体为:

通过比较所述待更新链接的抓取顺序变量值和所述预设值的大小,获得所述新链接的集合以及所述初始链接的集合,根据所述新链接的签名判断所述新链接集合中的各个新链接是否属于所述网页链接库,如果是,则进入步骤C,如果否,则进入步骤D;

相应的,在所述步骤C为:根据所述初始链接集合中各个初始链接的当前抓取状态更新所述网页链接库中具有对应抓取顺序的链接的初始抓取状态,在所述新链接集合中的某一链接属于所述网页链接库的情况下,则跳过所述新链接。

5.根据权利要求1所述方法,其特征在于,在所述步骤B前还包括:

将所述网页链接库中网页的链接以及抓取状态映射到内存中。

6.根据权利要5所述方法,其特征在于,所述步骤C具体为:

C1、根据所述待更新链接的抓取顺序,计算出所述待更新链接在所述网页链接库中的位置;

C2、根据所述待更新链接的当前抓取状态更新所述内存中所述位置的链接的初始抓取状态。

7.根据权利要求1所述方法,其特征在于,在所述步骤B前,还包括:

根据所述待更新链接的规模在硬盘上生成缓存文件,将所述缓存文件映射到内存中,获得第一内存映射文件,所述第一内存映射文件包括各个待更新链接以及各个待更新链接的抓取状态;

相应的,所述抓取顺序所述步骤D具体为:

D21、将所述待更新链接的抓取顺序设置为:前一个不存在于所述网页链接库中的待更新链接对应的抓取顺序与固定值之和,所述固定值是指所述网页链接库中两个相邻初始链接对应的抓取顺序变量值之差;

D22、在处于所述第一映射文件中的各个待更新链接扫描结束后,将所述第一内存映射文件截断,获得第二内存映射文件,所述第二内存映射文件包括不存在于所述网页链接库中的所述各个待更新链接、不存在于所述网页链接库中的所述各个待更新链接的信息,并将映射到内存的各个初始链接以及对应的当前抓取状态同步到所述网页链接库中;

D23、根据所述第二内存映射文件更新所述网页链接库。

8.根据权利要求7所述方法,其特征在于,所述步骤D3具体为:

将所述第二内存映射文件中的信息采用尾部追加的方式写入所述网页链接库中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110362064.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top