[发明专利]一种更新搜索引擎网址库方法及装置有效

申请号：	201210089025.4	申请日：	2012-03-29
公开（公告）号：	CN102663049A	公开（公告）日：	2012-09-12
发明（设计）人：	李铁钧;马良	申请（专利权）人：	奇智软件（北京）有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京市德权律师事务所 11302	代理人：	刘丽君
地址：	100016 北京市朝阳***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种更新搜索引擎网址方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及计算机技术领域，特别是涉及一种更新搜索引擎网址库的方法及装置。

背景技术

随着计算机的普及和互联网的发展，人们对网络的使用越来越频繁，计算机网络逐渐成为人们日常生活中必不可少的工具，而搜索引擎因其本身能够提供的各种丰富的信息服务，给用户提供了方方面面的信息和数据，在人们的日常生活中得到了广泛的应用，给人们日常的生产生活带来了巨大的便利。

搜索引擎网站是互联网上专门提供检索服务的一类网站，这些站点的服务器通过网络搜索软件或网络登录等方式，将互联网上的大量网站的页面信息收集起来，经过加工处理后，建立信息数据库和索引数据库，通过一定的接口对用户提出的检索请求做出响应，提供用户所需的信息。作为搜索引擎运行的关键一环，将互联网上不断出现的新的页面和信息收集起来，是搜索引擎网站提供服务的基础。搜索引擎网站需要不断更新自己的网址库，下载网址库中的网址对应的网页，再将这些网页的内容信息进行加工和整合，建立信息数据库和索引数据库，以便为用户提供信息检索和查询服务。在这个过程中，如何高效地收集互联网上不断出现的网址，是搜索引擎需要重点考虑的问题之一。

一个典型的搜索引擎系统，通常由网络爬虫系统、索引生成系统和在线检索系统构成。其中网络爬虫系统(又称网络机器人、网络蜘蛛)，是一个搜索引擎系统的重要基础组成部分。搜索引擎通常会使用这种网络爬虫系统收集互联网中的网址，生成搜索引擎网址库，进而对网址库中的网址对应的网页进行下载及分析，以便生成信息数据库和索引数据库。现有技术中的网络爬虫系统通常从一个或一组互联网页面开始，对页面做链接分析，从中获取新的网址，再对新的网址对应的网页进行下载，再从新下载的页面中分析并获取新的网址，如此不断循环，以达到不断的发现互联网上新的页面的目的。然而现实的情况是，在当今互联网高速发展的情况下，网页的数量以极高的速度与日俱增的同时，在互联网上依然存在着大量没有被搜索引擎系统编列索引的网页，其中包括没有被外部链接指向的网页，这种网页由于不能被网络爬虫程序以传统的方式发现并下载，通常被称为“暗网”。

因此，迫切需要本领域技术人员解决的技术问题就在于，如何提供一种更高效的更新搜索引擎网址库的方法，使搜索引擎能更加全面的收集互联网上的网页网址，更好的满足用户使用互联网搜索引擎进行信息检索的需要。

发明内容

本发明提供了一种更新搜索引擎网址库的方法，能够比较快速和全面的发现并收集互联网上的网页网址，进而更新搜索引擎的网址库。

本发明提供了如下方案：

一种更新搜索引擎网址库的方法，包括：

在浏览器端对用户浏览网页的行为进行监控；

获取被浏览网页的相关信息，并将所述被浏览网页的相关信息上报给搜索引擎服务器；其中，所述被浏览网页的相关信息包括被浏览网页的唯一性标识信息；

搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息，更新搜索引擎网址库。

其中，还包括：

搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息，确定搜索引擎网址库中网址的优先级，以便搜索引擎服务器根据所述优先级对搜索引擎网址库中的网址进行下载。

其中，所述搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息，确定搜索引擎网址库中网址的优先级，包括：

搜索引擎服务器根据从网络中各用户浏览器端收集到的所述被浏览网页的相关信息，统计被浏览网页的访问次数，根据被浏览次数确定搜索引擎网址库中网址的优先级。