[发明专利]一种网页链接库的更新方法及系统无效
申请号: | 201110362064.2 | 申请日: | 2011-11-15 |
公开(公告)号: | CN103106221A | 公开(公告)日: | 2013-05-15 |
发明(设计)人: | 陈华清;于志伟;吕晴 | 申请(专利权)人: | 盛乐信息技术(上海)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 201203 上海市浦东新区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 链接 更新 方法 系统 | ||
1.一种网页链接库的更新方法,其特征在于,所述网页链接库中各个链接是按照对应的抓取顺序进行排序,包括步骤:
A、获取包括初始链接和新链接的待更新链接;
B、判断所述待更新链接是否属于所述网页链接库,如果是,则进入步骤C,如果否,则进入步骤D;
C、根据所述待更新链接的当前抓取状态更新所述网页链接库中具有所述抓取顺序的链接的初始抓取状态;
D、按照与所述待更新链接对应的抓取顺序,将所述待更新链接更新至所述网页链接库中已有链接序列的后面。
2.根据权利要求1所述方法,其特征在于,所述抓取顺序采用抓取顺序变量值表示,步骤D具体为:
D11、将所述待更新链接的抓取顺序变量值设置为已扫描的不存在于所述网页链接库中的待更新链接的抓取顺序变量值与固定值之和,所述固定值是指所述网页链接库中两个相邻初始链接对应的抓取顺序变量值之差;
D12、将设置后的所述待更新链接更新至所述网页链接库中已有链接序列的后面。
3.根据权利要求2所述方法,其特征在于,所述抓取顺序变量值为静态变量,所述预设值为零,所述步骤B具体为:
判断所述待更新链接的抓取顺序变量值是否大于零,如果是,则进入步骤C,如果否,则进入步骤D。
4.根据权利要求2所述方法,其特征在于,所述步骤A还包括:
将各个新链接对应的抓取顺序变量值设置为预设值,所述预设值是指小于所述网页链接库中已存在链接的抓取顺序变量值的最小值或指大于所述网页链接库中已存在链接的抓取顺序变量值的最大值;
相应的,步骤B具体为:
通过比较所述待更新链接的抓取顺序变量值和所述预设值的大小,获得所述新链接的集合以及所述初始链接的集合,根据所述新链接的签名判断所述新链接集合中的各个新链接是否属于所述网页链接库,如果是,则进入步骤C,如果否,则进入步骤D;
相应的,在所述步骤C为:根据所述初始链接集合中各个初始链接的当前抓取状态更新所述网页链接库中具有对应抓取顺序的链接的初始抓取状态,在所述新链接集合中的某一链接属于所述网页链接库的情况下,则跳过所述新链接。
5.根据权利要求1所述方法,其特征在于,在所述步骤B前还包括:
将所述网页链接库中网页的链接以及抓取状态映射到内存中。
6.根据权利要5所述方法,其特征在于,所述步骤C具体为:
C1、根据所述待更新链接的抓取顺序,计算出所述待更新链接在所述网页链接库中的位置;
C2、根据所述待更新链接的当前抓取状态更新所述内存中所述位置的链接的初始抓取状态。
7.根据权利要求1所述方法,其特征在于,在所述步骤B前,还包括:
根据所述待更新链接的规模在硬盘上生成缓存文件,将所述缓存文件映射到内存中,获得第一内存映射文件,所述第一内存映射文件包括各个待更新链接以及各个待更新链接的抓取状态;
相应的,所述抓取顺序所述步骤D具体为:
D21、将所述待更新链接的抓取顺序设置为:前一个不存在于所述网页链接库中的待更新链接对应的抓取顺序与固定值之和,所述固定值是指所述网页链接库中两个相邻初始链接对应的抓取顺序变量值之差;
D22、在处于所述第一映射文件中的各个待更新链接扫描结束后,将所述第一内存映射文件截断,获得第二内存映射文件,所述第二内存映射文件包括不存在于所述网页链接库中的所述各个待更新链接、不存在于所述网页链接库中的所述各个待更新链接的信息,并将映射到内存的各个初始链接以及对应的当前抓取状态同步到所述网页链接库中;
D23、根据所述第二内存映射文件更新所述网页链接库。
8.根据权利要求7所述方法,其特征在于,所述步骤D3具体为:
将所述第二内存映射文件中的信息采用尾部追加的方式写入所述网页链接库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于盛乐信息技术(上海)有限公司,未经盛乐信息技术(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110362064.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:办证信息自助采集设备及其方法
- 下一篇:一种空地图像制导武器目标识别方法