[发明专利]基于非线性统一权值对检索结果进行排序的方法及装置无效
申请号: | 201110081087.6 | 申请日: | 2011-03-31 |
公开(公告)号: | CN102737018A | 公开(公告)日: | 2012-10-17 |
发明(设计)人: | 张子云 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 非线性 统一 检索 结果 进行 排序 方法 装置 | ||
技术领域
本发明涉及互联网信息处理领域,特别涉及一种基于非线性统一权值对检索结果进行排序的方法及装置。
背景技术
随着互联网技术的发展,搜索引擎技术的应用范围越来越广泛,传统的搜索引擎在进行检索结果排序时,通过采用使用检索结果页面(称为url)与检索关键词(称为query)之间的相关性作为排序依据,然而,单纯依靠相关性进行排序存在很多问题,例如,一些低质量高相关性的url,往往不能较好的满足用户,其实用度反而不如一些相关性中等但是质量较高的url,但是这些低质量的url却因为具有较高的相关性而在排序过程中获得一个很高的排名,显然,这种排序结果是不准确的,不利于用户获得较为满意的检索结果。
有鉴于此,搜索引擎开始引入相关性之外的参数,来对排序结果进行调整,比较典型的参数包括:权威性、页面质量、页面内容丰富程度、页面引用资源(视频、下载链接等)有效性等等。如何把这些参数与相关性的度量统一在一起建立一个排序的准则,是各种搜索引擎必须面对的一个问题。
传统方法一般是采用“统一权值”来解决这个问题。统一权值是在基础权值的基础上,使用各种参数对基础权值进行修正后,得出的一个度量性权值。例如,如果页面质量参数显示某一url的页面质量较好,则采用统一权值在基础权值的基础上增加某一数值或百分比,如果页面质量参数显示某一url的页面质量较差,则采用统一权值在基础权值的基础上减少某一数值或百分比。不同的参数可能会对统一权值做出不同的修正,最终的统一权值是这些修正的线性叠加之和,如,某一url,它的权威性参数使统一权值增加5%,页面质量参数使统一权值增加2%,页面内容丰富度参数使统一权值增加3%,但是它引用的下载资源已经失效,其页面资源有效性参数使统一权值减少4%,则其最终的统一权值为基础权值的106%=100%+5%+2%+3%-4%=6%)。
然而采用线性叠加模型来调整url的统一权值存在着以下缺点:
首先,由于采用多个参数线性叠加的方式来修正基础权值,因而会令相关性不高但的高质量的url获得过高的加权,使其排名高于相关性很高但中等质量的url。例如,假设每种参数都有5%的加权幅度,那么,只要采用10个参数进行线性叠加,就能令相关性为0.7的url排名高于相关性为1.0的url,然而,前者虽然质量很高,但却不是用户想要检索结果,因此不应该在排序过程中获得如此高的排名,这会影响到其他url的正确排名。
其次,大多数有决定性影响的参数都是多档位的,例如,针对权威性设置了5个档次。目前,业界通用的一种理想排序准则为(同时满足):
准则1:当两个url的相关性差距较小时,(如,小于0.05),应当由权威性决定排名先后,即应当由权威性较高的url应获得较高的排名,而不是由相关性较高的url获得较高的排名;
准则2:当两个url的相关性差距较大时(如,大于0.2),则应当由相关性决定排名先后,即不管权威性相差多少,都应该由相关性较高的url获得较高的排名,而不是由权威性较高的url获得较高的排名。
目前,各个档次的权威性分别设置有对应的加权幅度,如,权威性1档对应加权幅度5%,权威性2档对应加权幅度10%,权威性3档对应加权幅度15%,权威性4档对应加权幅度20%,权威性5档对应加权幅度25%,通常实验发现,无论权威性对应的加权幅度如何设定,都无法满足上述理想的排序方式,例如,若设定权威性每提高一个档次,加权幅度提高≥5%,则可以保证当两个url的相关性差距较小时(如,小于0.05),由权威性高的url的排名较高,满足准则1,但是,当两个url的相关性差距较大时,(如,大于0.2)时,若两个url的权威性相差5档,则权威性为5档的url的排名将高于相关性比它高0.2但权威性仅为0档的url的排名,显然,这不符合制定的准则2。
而若设定权威性每提高一个档次,加权幅度提高<5%,则排序结果与上述方式正相反,即两个url的权威性相差5档,则权威性为5档的url的排名将低于相关性比它高0.2但权威性仅为1档的url的排名,满足准则2,但是,当两个url的相关性差距较小时(如,小于0.05),却仍会由相关性较高,而不是权威性高的url获得较高排名,显然,不符合制定的准则1。
显然,现有的对url的排序方法,无法满足业界的执行标准,从而无法令用户准确,迅速地获得真正符合自身需要的url,在一定程度上降低了搜索引擎的检索性能,影响了搜索引擎的检索效率。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110081087.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种防颗粒可拆式捕沫器
- 下一篇:一种固定框架以及过滤器