[发明专利]对搜索系统的查询串改写效果进行评测的方法和装置无效
申请号: | 201210013825.8 | 申请日: | 2012-01-17 |
公开(公告)号: | CN103207871A | 公开(公告)日: | 2013-07-17 |
发明(设计)人: | 赵海舟;辛国茂 | 申请(专利权)人: | 深圳市腾讯计算机系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京德琦知识产权代理有限公司 11018 | 代理人: | 张晓峰;宋志强 |
地址: | 518057 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索 系统 查询 改写 效果 进行 评测 方法 装置 | ||
技术领域
本发明涉及数据搜索处理技术,尤其涉及一种对搜索系统的查询串改写效果进行评测的方法和装置。
背景技术
搜索引擎是指根据一定的搜索方案、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的数据处理系统。
查询串改写(即query改写,也称为query rewriting,query alteration或query reformulation)是在搜索引擎中,对用户输入的查询串(query)即检索文本进行改变和扩展,以达到更好的接近用户检索意图的一种技术方法。查询串改写处理方案的主要技术效果是:将用户的检索文本转化为对搜索引擎更适合的查询串,以提高搜索引擎的搜索效率和搜索结果的准确性。
在应用查询串改写这项技术后,业界需要对查询串改写效果进行评测,以检查每种查询串改写操作是否真的提高了搜索结果的准确性,是否能提高搜索结果与用户原有查询意图的相关度。
目前,业界对查询串改写效果进行评测的现有方式主要是一种简单的评测系统加人力来实现,即:借助人力对改写前的搜索结果和改写后的搜索结果进行打分标注,将每条搜索结果标注的分数输入评测系统进行汇总相加,最后得到查询串改写前和查询串改写后的两个分值,并对两个分值进行比较来判断查询串改写的改写效果。
现有技术的缺点在于:由于采用人工标注评测,因此需要耗费大量人力,且标注评测的周期很长,导致评测成本较高、评测效率较低,不利于查询串改写算法的快速迭代。
发明内容
有鉴于此,本发明的主要目的在于提供一种对搜索系统的查询串改写结果进行评测的方法和装置,提高评测效率。
本发明的技术方案是这样实现的:
一种对搜索系统的查询串改写效果进行评测的方法,包括:
分别对查询串改写前后的检索文本进行搜索,得到相应的搜索结果;
从查询串改写前的搜索结果中提取统一资源定位符URL集合A,从查询串改写后的搜索结果中提取URL集合B,并确定搜索结果的参照URL集合C;
计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F;
比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。
一种对搜索系统的查询串改写效果进行评测的装置,包括:
搜索触发模块,用于分别对查询串改写前后的检索文本进行搜索,得到相应的搜索结果;
URL集合提取模块,用于从查询串改写前的搜索结果中提取URL集合A,从查询串改写后的搜索结果中提取URL集合B;
参照URL集合确定模块,用于确定搜索结果的参照URL集合C;
相似度计算模块,用于计算所述提取的URL集合A与所述参照URL集合C的相似度f,计算所述提取的URL集合B与所述参照URL集合C的相似度F;
改写效果判断模块,用于比较所述相似度f和相似度F,根据比较结果判断查询串改写的改写效果。
与现有技术相比,本发明以查询串改写前后搜索结果的URL特征作为依据,由计算机自动提取出统一资源定位符(URL)集合分别与参照URL集合进行相似度计算,并自动按照计算出的相似度判断查询串改写的效果,整个过程可以由具有数据处理能力的设备自动执行,因此节省了大量的人力,降低了查询串改写的评测成本,提高了评测效率。
附图说明
图1本发明所述对搜索系统的查询串改写结果进行评测方法的一种流程图;
图2为一种更为形象的描述本发明所述方法的一种示意图;
图3为所述对搜索系统的查询串改写效果进行评测装置的一种组成示意图;
图4为所述相似度计算模块的一种内部组成示意图。
具体实施方式
下面结合附图及具体实施例对本发明再作进一步详细的说明。
图1本发明所述对搜索系统的查询串改写结果进行评测方法的一种流程图。参见图1,该流程包括:
步骤101、分别对查询串改写前后的查询串(即检索文本)进行搜索,得到相应的搜索结果。此处的具体方法是将查询串改写前的检索文本和查询串改写后的检索文本分别输入到搜索系统的搜索引擎进行搜索,得到搜索引擎对应返回的两部分搜索结果,每部分搜索结果包括多条记录,每条记录包括URL、标题、摘要等信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市腾讯计算机系统有限公司,未经深圳市腾讯计算机系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210013825.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种酸敏感双光发射探针、制备方法及其用途
- 下一篇:生物体试样制备方法