[发明专利]更新网页存储的方法、设备、网页存储系统和搜索系统在审
申请号: | 201710065766.1 | 申请日: | 2017-02-06 |
公开(公告)号: | CN106844706A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 蔡迥航 | 申请(专利权)人: | 广东神马搜索科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙)11442 | 代理人: | 杨国权,马佑平 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 网页 存储 方法 设备 存储系统 搜索 系统 | ||
1.一种用于更新网页存储的方法,包括:
检测网页存储系统的第一哈希表的冲突率,其中,所述第一哈希表存储网页数据;
在冲突率大于更新阈值的情况下,创建第二哈希表,其中,第二哈希表的容量大于第一哈希表;以及
以多次迁移处理将第一哈希表中网页数据迁移到第二哈希表中,其中,在每次迁移处理中,将第一哈希表中网页数据的一部分迁移到第二哈希表中。
2.根据权利要求1所述的方法,其中,所述冲突率是哈希表中当前实际容纳的网页数据所占用的哈希桶数与哈希表中的全部哈希桶数的比值,所述更新阈值是关于所述比值的阈值。
3.根据权利要求1所述的方法,其中,所述冲突率是所述第一哈希表中当前实际存储的网页数据所占用的哈希桶数,以及所述更新阈值是关于哈希桶数的阈值。
4.根据权利要求1所述的方法,其中,以多次迁移处理将第一哈希表中网页内容迁移到第二哈希表中还包括:
当接收到查询时将第一哈希表中网页数据迁移到第二哈希表中。
5.根据权利要求4所述的方法,其中,当接收到查询时将第一哈希表中网页数据迁移到第二哈希表中还包括:
在第一哈希表中设置迁移游标i,其中,迁移游标i指示当前要被迁移的网页数据元素;以及
当接收到查询时将迁移游标i所指示的网页数据元素迁移到第二哈希表。
6.根据权利要求5所述的方法,其中,所述当前要被迁移的网页数据元素包括一个或多个哈希桶对应的元素或一个哈希桶中的一个或多个元素。
7.根据权利要求1所述的方法,其中,在迁移过程中,新的网页数据被写入到第二哈希表中。
8.根据权利要求1所述的方法,还包括:
从第二哈希表读取网页数据;以及
当在第二哈希表中未找到到相关网页数据的情况下从第一哈希表读取网页数据。
9.根据权利要求1所述的方法,其中,以多次迁移处理将第一哈希表中网页内容迁移到第二哈希表中还包括:
将来自第一哈希表的网页数据写入文件缓存中;以及
在写入文件缓存的网页数据量大于缓存阈值的情况下,将文件缓存中的网页数据写入到第二哈希表。
10.根据权利要求9所述的方法,还包括:
当将文件缓存中的网页数据写入到第二哈希表时,在第二哈希表中的网页数据文件的长度大于文件缓存中相应的网页数据文件的长度的情况下,读取文件缓存中的所述网页数据文件。
11.根据权利要求1所述的方法,其中,所述网页数据包括网页摘要。
12.根据权利要求1所述的方法,其中,所述网页存储系统是网页搜索系统的存储系统。
13.一种用于更新网页存储的设备,包括:
用于检测网页存储系统的第一哈希表的冲突率的装置,其中,所述第一哈希表存储网页数据;
用于在冲突率大于更新阈值的情况下创建第二哈希表的装置;以及
用于以多次迁移处理将第一哈希表中网页数据迁移到第二哈希表中的装置,其中,在每次迁移处理中,将第一哈希表中网页数据的一部分迁移到第二哈希表中。
14.一种网页存储系统,包括根据权利要求13所述的用于更新网页存储的设备。
15.一种网页存储系统,包括:存储器和处理器,其中,所述存储器包括机器可执行指令,当所述网页存储系统运行时,所述机器可执行指令用于控制所述处理器执行根据权利要求1-12中的任何一项所述的方法中的处理。
16.一种网页搜索系统,包括根据权利要求14或15所述的网页存储系统,用于存储网页数据,以供检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东神马搜索科技有限公司,未经广东神马搜索科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710065766.1/1.html,转载请声明来源钻瓜专利网。