[发明专利]更新网页存储的方法、设备、网页存储系统和搜索系统在审
申请号: | 201710065766.1 | 申请日: | 2017-02-06 |
公开(公告)号: | CN106844706A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 蔡迥航 | 申请(专利权)人: | 广东神马搜索科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙)11442 | 代理人: | 杨国权,马佑平 |
地址: | 510627 广东省广州市天河区黄埔大*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 更新 网页 存储 方法 设备 存储系统 搜索 系统 | ||
技术领域
本发明涉及网页存储和网页搜索技术领域,更具体地,涉及一种用于更新网页存储的方法、用于更新网页存储的设备、网页存储系统和网页搜索系统。
背景技术
在互联网应用的网页搜索系统中,通常需要以网页摘要的形式将网页数据存储在网页搜索系统的网页存储系统中。由于在互联网中网页数量巨大,因此,通常以键值对的形式将所述网页数据存储在网页存储系统中,其中,所述键值对的主键是归一化的网页地址,所述键值对中的值是网页内容或网页摘要内容。
在现有的网页搜索系统中,由于网页数量巨大以及网页搜索系统对于网页内容的更新不敏感,因此,通常每天或每周对网页存储系统中的网页数据进行更新,或者仅仅对于部分网页数据进行实时更新。
通常,有两种对网页数据进行实时更新的方式。
在第一种方式中,通过辅助的存储设备(例如,Redis系统)来实现实时更新。这种方式会增加网页存储系统的复杂度。
在第二种方式中,以开链哈希表的方式存储网页数据,以便实现对网页数据的快速查找。在向哈希表中存储大量网页的情况下,哈希表冲突会导致查询性能严重下降。此时,需要对哈希表进行扩容。
在现有技术中,在对哈希表进行扩容时,首先创建新哈希表,接着将原有哈希表中存储的网页数据一次性拷贝到新哈希表中。在所述一次性拷贝过程中,原有哈希表的查询性能严重下降。
因此,需要提供一种新的技术方案,针对上述现有技术中的至少一个技术问题进行改进。
发明内容
本发明的一个目的是提供一种用于更新网页存储的新技术方案。
根据本发明的第一方面,提供了一种用于更新网页存储的方法,包括:检测网页存储系统的第一哈希表的冲突率,其中,所述第一哈希表存储网页数据;在冲突率大于更新阈值的情况下,创建第二哈希表,其中,第二哈希表的容量大于第一哈希表的容量;以及以多次迁移处理将第一哈希表中网页数据迁移到第二哈希表中,其中,在每次迁移处理中,将第一哈希表中网页数据的一部分迁移到第二哈希表中。
可选地或另选地,所述冲突率是哈希表中当前实际容纳的网页数据所占用的哈希桶数与哈希表中的全部哈希桶数的比值,所述更新阈值是关于所述比值的阈值。
可选地或另选地,所述冲突率是所述第一哈希表中当前实际存储的网页数据所占用的哈希桶数,以及所述更新阈值是关于哈希桶数的阈值。
可选地或另选地,以多次迁移处理将第一哈希表中网页内容迁移到第二哈希表中还包括:当接收到查询时将第一哈希表中网页数据迁移到第二哈希表中。
可选地或另选地,当接收到查询时将第一哈希表中网页数据迁移到第二哈希表中还包括:在第一哈希表中设置迁移游标i,其中,迁移游标i指示当前要被迁移的网页数据元素;以及当接收到查询时将迁移游标i所指示的网页数据元素迁移到第二哈希表。
可选地或另选地,所述当前要被迁移的网页数据元素包括一个或多个哈希桶对应的元素或一个哈希桶中的一个或多个元素。
可选地或另选地,在迁移过程中,新的网页数据被写入到第二哈希表中。
可选地或另选地,还包括:从第二哈希表读取网页数据;以及当在第二哈希表中未找到相关网页数据的情况下从第一哈希表读取网页数据。
可选地或另选地,以多次迁移处理将第一哈希表中网页内容迁移到第二哈希表中还包括:将来自第一哈希表的网页数据写入文件缓存中;以及在写入文件缓存的网页数据量大于缓存阈值的情况下,将文件缓存中的网页数据写入到第二哈希表。
可选地或另选地,还包括:当将文件缓存中的网页数据写入到第二哈希表时,在第二哈希表中的网页数据文件的长度大于文件缓存中相应的网页数据文件的长度的情况下,读取文件缓存中的所述网页数据文件。
可选地或另选地,所述网页数据是网页摘要。
可选地或另选地,所述网页存储系统是网页搜索系统的存储系统。
根据本发明的第二方面,提供了一种用于更新网页存储的设备,包括:用于检测网页存储系统的第一哈希表的冲突率的装置,其中,所述第一哈希表存储网页数据;用于在冲突率大于更新阈值的情况下创建第二哈希表的装置,其中,第二哈希表的容量大于第一哈希表的容量;以及用于以多次迁移处理将第一哈希表中网页数据迁移到第二哈希表中的装置,其中,在每次迁移处理中,将第一哈希表中网页数据的一部分迁移到第二哈希表中。
根据本发明的第三方面,提供了一种网页存储系统,包括上述用于更新网页存储的设备。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东神马搜索科技有限公司,未经广东神马搜索科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710065766.1/2.html,转载请声明来源钻瓜专利网。