[发明专利]一种基于用户行为的搜索方法及系统有效
申请号: | 201310068715.6 | 申请日: | 2013-03-05 |
公开(公告)号: | CN104035927B | 公开(公告)日: | 2020-03-03 |
发明(设计)人: | 闫泽华 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/955 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 用户 行为 搜索 方法 系统 | ||
1.一种基于用户行为的搜索方法,其特征在于,该方法包括:
基础搜索服务器依据用户在搜索引擎中输入的搜索词生成搜索结果页;
排序服务器依据所述搜索词在预先生成的映射关系中获取对应的标签,利用与所述搜索结果页相似度最高的标签标注所述搜索结果页,并将具有相同标签的搜索结果页划分为一类;其中,生成映射关系的方法为网页服务器从搜索结果页的正文提取高频词并生成高频词集合,将搜索结果页与高频词集合的映射关系保存到网页数据库;当用户输入搜索词后收藏搜索结果页并标注标签时,搜索信息挖掘服务器依据网页数据库中存储的搜索结果页与高频词集合的映射关系,生成高频词集合与搜索词的映射关系,因此进一步生成标签、高频词集合和搜索词的映射关系,并将搜索词、高频词集合和标签的映射关系以搜索词为索引保存到映射信息数据库;
排序服务器依据预设的兴趣类别与网页的对应关系获得搜索结果页对应标签的兴趣类别,将预先生成的用户的兴趣类别与标签的兴趣类别进行匹配,增加匹配到的标签所对应的搜索结果页的权重值,将依据权重值进行排序后得到的搜索结果页推送给用户。
2.根据权利要求1所述的方法,其特征在于,所述从搜索结果页的正文提取高频词具体包括:
从搜索结果页中提取候选正文,并将候选正文中链接文本数目与总文本数目的比值大于预设阈值的文本删除,得到搜索结果页的正文;
对所述正文进行分词处理,得到一个以上单词;
依据预设的停用词表从得到的单词中过滤掉停用词,得到搜索结果页的高频词。
3.根据权利要求1所述的方法,其特征在于,生成用户的兴趣类别的方法为:
兴趣挖掘服务器从用户数据库的搜索历史记录和标签历史记录中获取用户的搜索词和标签;
兴趣挖掘服务器依据预设的兴趣类别与对应的网页,以及搜索结果页与高频词集合的对应关系,获得兴趣类别对应的高频词集合;
兴趣挖掘服务器将获得的用户的搜索词和标签与兴趣类别的高频词集合进行比对,当搜索词和标签与高频词集合的匹配率大于预设阈值时,将所述高频词集合对应的兴趣类别作为所述用户的兴趣类别,将用户与兴趣类别的对应关系保存到兴趣数据库。
4.根据权利要求1所述的方法,其特征在于,所述在预先生成的映射关系中获取对应的标签具体包括:
排序服务器在所述映射关系中查找用户输入的搜索词对应的所有标签和高频词集合;或,
排序服务器依据用户的兴趣类别和用户的标签,为用户划分兴趣用户组;将输入搜索词的用户的兴趣类别下或搜索结果页所述的兴趣类别下人数最多的用户兴趣组中其他用户的标签作为输入搜索词的用户的标签,依据其他用户的标签在所述映射关系中查找对应的高频词集合。
5.根据权利要求1所述的方法,其特征在于,获得搜索结果页与标签的相似度的方法为:
利用搜索词对应的高频词集合组成搜索词的语义空间,并分别将搜索结果页的高频词集合和标签在语义空间中进行匹配,得到搜索结果页和标签在所述语义空间中的向量,并利用所述向量计算得到搜索结果页与标签的相似度。
6.根据权利要求1所述的方法,其特征在于,利用如下公式增加匹配到的标签所对应的搜索结果页的权重值:
Valuenew=Valueold×k
其中,Valueold为原始的搜索结果页的权重值,Valuenew为搜索结果页权重值增加后的新权重值,k为调权因子且k大于1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310068715.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页截图方法和装置
- 下一篇:数据存储方法、装置和存储系统