[发明专利]一种确定网站权重的方法及装置有效
申请号: | 201210089527.7 | 申请日: | 2012-03-29 |
公开(公告)号: | CN102663054A | 公开(公告)日: | 2012-09-12 |
发明(设计)人: | 李铁钧;张绍瑞 | 申请(专利权)人: | 奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市德权律师事务所 11302 | 代理人: | 刘丽君 |
地址: | 100016 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 网站 权重 方法 装置 | ||
技术领域
本发明涉及搜索引擎技术领域,特别是涉及一种确定网站权重的方法及装置。
背景技术
随着计算机的普及和互联网的发展,人们对网络的使用越来越频繁,计算机网络逐渐成为人们日常生活中必不可少的工具,而搜索引擎因其本身能够提供的各种丰富的信息服务,给用户提供了方方面面的信息和数据,在人们的日常生活中得到了广泛的应用,给人们日常的生产生活带来了巨大的便利。
搜索引擎网站是互联网上专门提供检索服务的一类网站,用户通过在搜索引擎提供的接口中输入搜索词(query),获取搜索引擎针对该搜索词返回的搜索结果。作为搜索引擎运行的关键一环,将互联网上不断出现的新的页面和信息收集起来,是搜索引擎网站提供服务的基础。搜索引擎服务器需要不断更新自己的网址库,下载网址库中的网址对应的网页,再将这些网页的内容信息进行加工和整合,建立信息数据库和索引数据库,以便为用户提供信息检索和查询服务。
然而,在如今互联网上的网页数量极其庞大,而且增长速度又非常快的情况下,要想在短时间内对每一个抓取到的网页都进行下载分析,几乎是一个不可能完成的任务,这是因为,互联网上网页的数量极其庞大,搜索引擎的爬虫程序在互联网上抓取到的URL对应的页面也只是其中的一部分,然而即使是这部分页面,要想全部下载到搜索引擎服务器中,需要占用大量的资源,因此,通常采取一种由搜索引擎给网址库中的网址设置优先级,生成并维护下载队列,根据待下载网页的优先级高低来顺序对网页进行下载调度。其中,网页的下载优先级主要是根据网页所在网站的权威性因素来设定的,因此,如何准确获取到网站的权威性评价是比较关键的一环。
现有技术在确定一个网站的权威性时,主要考虑网站包含的网页数量、网站内各网页的更新频率、网站外链(所谓外链是指,在博客、论坛等其他外部网站发布的关于某网站的链接,通过外链,可以从别的网站导入到自己的网站)的数量、外链源网站的重要程度等。但是,搜索引擎在采集以上这些参数时,会依赖于已爬取的网页数据,或者用户对搜索结果的点击情况,但是这会因为爬取方式的不同,而造成不同程度的偏差。例如,网站包含的网页数量比较依赖于搜索引擎对该网站下的网页的爬取情况,如果一个网站内包含的网页数量比较大,但是搜索引擎仅爬取到了其中的一小部分,则搜索引擎所获知的这个网站包含的网页数量,实际上是小于该网站实际包含的网页数量的;网页的更新频率比较依赖搜索引擎对该网站的爬取频度,如果某网页的更新频率非常高,但是搜索引擎对该网站的爬取频度较低,则搜索引擎采集到的该网页的更新频率会小于该网页的实际更新频率;网站的外链数量则更多的依赖于对互联网上海量网页的链接分析,如果分析地不够全面,仍然会导致数据的偏差。此外,网站的开发和维护人员也往往会采用一些手段,来影响以上这些数据的真实性,从而使得网站获取更高的权重评价。总之,由于以上诸多因素的影响,使得现有技术中的搜索引擎存在采集数据不准确、数据更新不及时等缺陷,进而导致最终给出的搜索结果的质量比较低。
发明内容
本发明提供了一种确定网站权重的方法及装置,能够提高搜索引擎采集数据的准确度及更新的及时性。
本发明提供了如下方案:
一种确定网站权重的方法,包括:
浏览器端将用户的访问网页相关信息上报给搜索引擎服务器;所述访问网页相关信息包括:被访问网页的唯一性标识信息、以及当用户访问链接对应的目标网页时,所述链接所在的源网页的唯一性标识信息;
所述搜索引擎服务器根据从多个浏览器端收集到的所述访问网页相关信息,统计网站的权威性信息,所述网站的权威性信息包括网站包含的网页数量、及网站外链的数量;以便所述搜索引擎服务器根据所述网站的权威性信息确定网站的权重。
其中,还包括:
统计同一网站下各个网页的访问量,根据同一网站下各个网页的访问量调整该网站的权重。
其中,所述根据同一网站下各个网页的访问量调整网站的权重包括:
根据同一网站下访问量超过第一预置阈值的网页的数量,对该网站进行加权;
或者,
根据同一网站的总访问量,对该网站进行加权。
其中,所述浏览器端上报的访问网页相关信息还包括访问网页的用户信息,所述方法还包括:
统计同一网站下各个网页的访问用户量,根据同一网站下各个网页的访问用户量调整该网站的权重。
其中,所述根据同一网站下各个网页的访问用户量调整该网站的权重包括:
根据同一网站下访问用户量超过第二预置阈值的网页的数量,对该网站进行加权;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇智软件(北京)有限公司,未经奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210089527.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据搜索系统及方法
- 下一篇:由含碳材料生产合成烃的方法