[发明专利]基于用户日志进行查询推荐的方法及系统有效

申请号：	201110422562.1	申请日：	2011-12-16
公开（公告）号：	CN102609433A	公开（公告）日：	2012-07-25
发明（设计）人：	王继民;李雷明子;王建冬	申请（专利权）人：	北京大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	王莹
地址：	100871***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于用户日志进行查询推荐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及搜索引擎技术领域，尤其涉及一种基于用户日志进行查询推荐的方法及系统。

背景技术

随着万维网上信息数量的快速增长，越来越多的人使用搜索引擎去查找Web上的有用信息。2011年中国互联网络信息中心(CNNIC)的统计报告显示，在各种网络应用服务中搜索引擎的使用率已排名第一，并成为网民进入互联网的最主要入口。使用搜索引擎时，用户只需在搜索框中输入一个查询串(或称查询短语，query)，检索系统就会根据用户输入的内容提供检索结果列表(result list)，用户点击相应结果的URL到达相应网页。

虽然搜索引擎的技术在不断改进和提升，但仍旧存在如下问题：一方面，统计表明，用户输入的查询串普遍较短，平均只有2-4个汉字，在这种情况下，短语所表达的主题比较宽泛，容易产生歧义，从而不一定能确切反映用户的搜索意图；另一方面，即使用户提出的关键词是准确的，搜索引擎也仅仅是把与关键词匹配的结果返回给用户，结果具有通用性，不能很好的满足用户的个性化信息需求。因此，查询推荐(query suggestion)技术被广泛应用于各大主流的搜索引擎，即在系统返回结果的页面中包含了一个相关查询列表，从而为用户明确搜索意图提供思路、为修改查询提供参考，同时也能帮助搜索引擎进行更精确的定位，提高搜索结果的质量。

目前，根据推荐内容的来源，查询推荐方法可分为两类：基于文档的方法和基于用户日志的方法。由于搜索引擎日志本身包含了大量构造完整的查询，故比较容易发现查询之间的各种联系，因此基于搜索引擎日志的方法成为查询推荐的主流。

根据所利用日志的内容，基于日志的查询推荐方法可分为三类：基于查询串、基于点击网页地址(URL)、基于用户会话(Session)。基于查询串的方法利用输入的查询内容之间的相似度计算查询相关度，查询内容可以包括查询所对应用户点击结果的锚文本、摘要等信息；基于点击URL的方法利用两查询中相同或相似的点击URL作为特征，计算两查询间的相关度；基于用户会话的方法则根据两查询在同一搜索过程(Session)中共现的次数计算相关度。

根据所使用的技术方法，基于日志的查询推荐可分为如下几类：基于聚类方法的推荐、基于关联规则的推荐、基于时间分布的推荐等。基于聚类的方法试图对查询串进行聚类发现相关查询，也可构造由查询串和点击URL组成的二部图来寻找相关查询串，该方法存在数据稀疏问题，需要丰富的日志数据做支撑。基于关联规则的方法中，把查询短语视为关联规则的项，把查询日志看作会话的集合，从而推荐统会话中共同出现的高频词汇，该方法需要准确划分session；基于时间分布的推荐，则考虑到相似查询的搜索频率在时间分布上应该是相似的，特殊的时间点通常有特殊的查询和推荐，这类方法可以作为其他方法的一种补充应用在查询推荐系统中。

传统的查询推荐，很多是基于文档的推荐，或者利用大量的文档信息，或者利用人工编辑的语义资源，但通常计算量大，尤其不再适合网络内容更新频繁、新事物层出不穷、搜索意图多元化的Web检索系统推荐。

发明内容

(一)要解决的技术问题

本发明要解决的技术问题是：提供一种基于用户日志进行查询推荐的方法及系统，以充分利用搜索引擎用户日志，为用户提供最可能反应其查询意向且系统具有最佳反馈结果的查询串。

(二)技术方案

为解决上述问题，一方面，本发明提供了一种基于用户日志进行查询推荐的方法，包括以下步骤：

S1：对搜索引擎用户日志中的数据集进行选择，并对所述选择的数据集进行预处理，得到有效查询日志集合，作为第一数据集；

S2：提取第一数据集中每一个查询串的支持度、流行度和推荐度指标，选择满足这三个特征指标最小阈值的查询串与用户记录，作为第二数据集；

S3：选择多个典型查询串作为训练数据，作为第一训练样本集；

S4：对第一训练样本集中的每一查询串，在第二数据集提取具有一定共现度、相似度和关联度的查询串作为候选相关查询串，然后标注所述候选相关查询串与给定查询串的相关性，作为第二训练样本集；

S5：构建预测模型，基于所述第二训练样本集，学习获得所述预测模型的参数取值；

S6：对用户输入的查询串，在第二数据集中找到与用户输入的查询串具有设定阈值以上相似度、共现度和关联度的查询串，作为候选查询集；