[发明专利]一种分布式网络爬虫的URL去重方法及其系统在审

申请号：	201811392810.0	申请日：	2018-11-21
公开（公告）号：	CN109657118A	公开（公告）日：	2019-04-19
发明（设计）人：	胡翔	申请（专利权）人：	安徽云融信息技术有限公司
主分类号：	G06F16/951	分类号：	G06F16/951;G06F16/955;H04L9/06
代理公司：	上海精晟知识产权代理有限公司 31253	代理人：	冯子玲
地址：	230000 安徽省合肥市高新区***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	去重抓取分布式网络爬虫遍历数据传输领域符号查找密文生成网络爬虫压缩处理资源空间广义表资源库磁盘解密密文数组切割占有率网页转换改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种分布式网络爬虫的URL去重方法及其系统，涉及数据传输领域。本发明包括如下步骤：步骤S01：获取待抓取网页的URL；步骤S02：URL进行MD5压缩处理；步骤S03：将生成的密文切割成16位数组；步骤S04：根据磁盘符号查找方式将密文生成数组的转换为相应路径；步骤S05：判断linkurl中是否存在相应的URL；步骤S06：对资源库中的URL进行解密并动态插入改进广义表；步骤S07：遍历待去重的URL每个字母；步骤S08：依次判断每个字母对应的节点是否存在。本发明通过MD5加密算法与树相结合的方式对URL初步去重，再通过将初步去重的URL依次遍历每个字母，根据字母对应的节点进行二次去重，提升了网络爬虫抓取数据精确性和效率，降低了资源空间占有率。

技术领域

本发明属于数据传输领域，特别是涉及一种分布式网络爬虫的URL去重方法及其系统。

背景技术

目前，网络爬虫常用的URL去重方案有基于数据库的去重方案和基于内存链表的去重方案，这些方案在URL库容量不大的情况下有不错的效果。但是，现有的分布式爬虫面向的URL库容量通常非常大，需要URL去重能够持久保持高效运作，而上述常用的URL去重方案在爬虫程序运行较长时间后会有效率剧降或任务瘫痪的风险。现有技术中的URL去重方法设计不够合理，亟需改进。

发明内容

本发明的目的在于提供一种分布式网络爬虫的URL去重方法及其系统，通过MD5加密算法与树相结合的方式对URL初步去重，再通过将初步去重的URL依次遍历每个字母，根据字母对应的节点进行二次去重，解决了现有的网络爬虫抓取数据精确性和效率不足以及占用资源多的问题。

为解决上述技术问题，本发明是通过以下技术方案实现的：

本发明为一种分布式网络爬虫的URL去重方法，包括如下步骤：

步骤S01：获取待抓取网页的URL；

步骤S02：将获取的URL进行16位MD5压缩处理；

步骤S03：将生成的密文切割成16位数组；

步骤S04：根据磁盘符号查找方式将密文生成数组的转换为相应路径；

步骤S05：判断linkurl中是否存在相应的URL；

若不存在，则URL存储至资源库；

若存在，则删除该URL；

步骤S06：对资源库中的URL进行解密并动态插入改进广义表；