[发明专利]一种基于用户行为的搜索方法及系统有效
申请号: | 201310068715.6 | 申请日: | 2013-03-05 |
公开(公告)号: | CN104035927B | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 闫泽华 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 行为 搜索 方法 系统 | ||
本发明提供了一种基于用户行为的搜索方法及系统,该方法包括:基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。根据本发明提供的技术方案,能够向用户提供有针对性和个性化的搜索结果,提高搜索效率。
【技术领域】
本发明涉及互联网领域的搜索技术,尤其涉及一种基于用户行为的搜索方法及系统。
【背景技术】
目前,搜索引擎都是依据用户在搜索引擎中的点击行为和相关搜索词对搜索结果的顺序进行调整,例如,在前十个搜索结果中,如果用户点击第五个搜索结果的数量远远超过前四个搜索结果,表示第五个搜索结果与前四个搜索结果相比,与搜索词更加匹配;或者,用户连续输入“苹果”和“苹果手机”两个搜索词,表示用户的真实需求是搜索“苹果手机”,而第一个搜索词的搜索结果并没有给出用户满意的搜索结果,因此,搜索引擎通过这样的方式获得用户行为反馈,对搜索结果进行调整。
但是,在搜索引擎对搜索结果进行调整时获取的用户的信息量较少,而且有效性较低,例如,搜索引擎只能获得用户是否打开某个搜索结果的信息,而不知道用户对该搜索结果的满意程度;而且,搜索引擎是对大规模用户数据进行分析,进而调整搜索结果,因此是对通用搜索需求的搜索结果进行调整,不能有效区分统一搜索词的不同语义信息,不能根据用户的兴趣爱好进行倾向性的调整,因此没有实现向用户提供更具有针对性和个性化的搜索结果,搜索引擎的个性化服务水平较低,用户需要在搜索结果中筛选感兴趣的搜索结果,增加搜索引擎的负担,搜索效率较低;例如,对于具有不同语义的搜索词“苹果”,该搜索词包含两个语义信息:水果和手机,大规模用户数量的调整将导致一个需求较大的语义信息覆盖另一个语义信息。
【发明内容】
本发明提供了一种基于用户行为的搜索方法及系统,能够向用户提供有针对性和个性化的搜索结果,提高搜索效率。
本发明的具体技术方案如下:
根据本发明一优选实施例,一种基于用户行为的搜索方法,包括:
基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;
排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;
排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。
上述方法中,生成映射关系的方法为:
网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;
当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据搜索结果页与高频词集合的映射关系生成搜索词、高频词集合和标签的映射关系,并将搜索词、高频词集合和标签的映射关系保存到映射信息数据库。
上述方法中,所述从搜索结果页的正文提取高频词具体包括:
从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;
对所述正文进行分词处理,得到一个以上单词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310068715.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网页截图方法和装置
- 下一篇:数据存储方法、装置和存储系统