[发明专利]一种用于分布式爬虫网址去重的方法在审

申请号：	202010303523.9	申请日：	2020-04-16
公开（公告）号：	CN111522847A	公开（公告）日：	2020-08-11
发明（设计）人：	徐利东;远贵良	申请（专利权）人：	山东贝赛信息科技有限公司
主分类号：	G06F16/2455	分类号：	G06F16/2455;G06F16/2458;G06F16/951;G06F16/955
代理公司：	济南瑞宸知识产权代理有限公司 37268	代理人：	王萍
地址：	250000 山东省济南市经十路7000号***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于分布式爬虫网址方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用于分布式爬虫网址去重的方法，分布式爬虫网址去重的步骤如下：采集URL集合、初次计算、二次计算、判断数据是否存在一、判断数据是否存在二、完成采集。本发明取得如下技术效果：解决了大规模网页地址去重的瓶颈问题，该方法可以自由拓展分布式内存数据库的数量，满足任何数据规模的去重需求，由于基于内存数据库，所以去重效率非常高，由于是分布式，所有不存在内存溢出或者I/O超载的情况。

技术领域

本发明涉及计算机网络技术领域，确切地说是一种用于分布式爬虫网址去重的方法。

背景技术

随着互联网的迅速发展，互联网舆情监测的越来越宽泛，如何解决每天亿级数据的去重问题成了，数据采集领域一个重要的难题，既要保障去重的准确性又要保证去重的高效率，常规的去重已经无法满足业务需求。

基于内存的去重方法需要面对内存溢出的问题，尤其是在面对海量日益增长的网页URL的情况下。目前通用的解决方案是采用Bloom Filter，这种方法虽然解决了内存溢出问题，但却牺牲了准确率，随着数据量的增大，碰撞概率也会增大。

基于磁盘的去重方法不存在内存溢出问题，这类方法一般采用数据库去重的方式。对于传统关系型数据库，在处理海量URL去重时会面临单点问题以及查询效率随数据量增长而下降问题。

发明内容

本发明要解决的技术问题是基于磁盘的去重方法不存在内存溢出问题，这类方法一般采用数据库去重的方式。对于传统关系型数据库，在处理海量URL去重时会面临单点问题以及查询效率随数据量增长而下降问题。

为解决上述技术问题，本发明采用如下技术手段：

一种用于分布式爬虫网址去重的方法，分布式爬虫网址去重的步骤如下：

步骤1：采集URL集合：通过爬虫获取需要采集的URL集合；

步骤2：初次计算：针对采集的每个URL进行编码计算，针对编码前两位计算所在的内存数据库；