[发明专利]一种基于用户兴趣的个性化搜索实现方法有效

专利信息
申请号: 201410086236.1 申请日: 2014-03-10
公开(公告)号: CN103853831B 公开(公告)日: 2017-02-01
发明(设计)人: 崔自峰;钱葵东 申请(专利权)人: 中国电子科技集团公司第二十八研究所
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 江苏圣典律师事务所32237 代理人: 胡建华
地址: 210007 江苏省南京*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于用户兴趣剖像实现个性化搜索的方法,首先,从用户的浏览器页面缓存中抽取Web页面,根据页面中包含的超链接关系进行聚类,获取的聚类代表用户的一种兴趣,聚类包含的页面数量与页面总数之比代表兴趣的浓厚程度;然后,提出一种新的用户兴趣剖像表示方法,并在用户兴趣页面聚类中,采用基于忠诚度的加权关联规则方法,挖掘聚类中的关联规则词条作为用户兴趣剖像的代表;最后,将获取的用户兴趣剖像推导用户搜索请求的兴趣,通过与用户交互确认,扩展用户的搜索请求提交给通用搜索引擎,扩展后搜索请求能够将搜索结果聚焦在用户的兴趣范围内,实现了用户的个性化搜索。该方法可以用于浏览互联网的浏览器,帮助用户改善搜索体验。
搜索关键词: 一种 基于 用户 兴趣 个性化 搜索 实现 方法
【主权项】:
一种基于用户兴趣的个性化搜索实现方法,其特征在于,包括用户兴趣剖像、用户兴趣剖像生成以及个性化搜索推导三个部分;所述用户兴趣剖像包括对用户的兴趣进行描述和建模;所述用户兴趣剖像生成包括对用户浏览器中缓存页面进行聚类、关联规则挖掘,构建用户兴趣剖像;所述个性化搜索推导包括依据用户兴趣剖像对用户的搜索请求进行推理匹配,获得用户搜索兴趣,利用搜索请求扩展方法,实现个性化搜索;所述的用户兴趣剖像的组成包括三个部分:第一部分为一组浏览页面聚类,每一个聚类代表用户的一种兴趣,作为兴趣聚类,其包含的页面数量与页面总数之比作为用户兴趣的程度,该比值的范围为0~1之间的实数;第二部分为每一个兴趣聚类的中心,用特征向量表达,每一个特征项的值为该聚类中词条特征的词频平均值,用于搜索时,用户兴趣的推导;第三部分为聚类关联规则词条,是与关联规则对应的词条组合,代表每一个兴趣聚类的关键特征,在个性化搜索时,将其作为扩展词进行搜索,将搜索内容限定在扩展词范围内;所述的用户兴趣剖像生成过程包括两个步骤:步骤1、对用户浏览器缓存浏览页面的兴趣聚类,生成用户兴趣剖像的第一部分和第二部分;步骤2、挖掘兴趣聚类的关联规则词条,生成用户兴趣剖像的第三部分;其中步骤1所述的对用户浏览器缓存浏览页面的兴趣聚类,包括如下步骤:步骤(11),提取用户的浏览器缓存区中的浏览页面,把每一个浏览页面p表示成一组词条的特征向量和浏览页面p包含的超链接页面集合;步骤(12),将用户的浏览器缓存区中的浏览页面按照页面包含的链接关系建立图模型的表示方式,得到一个浏览页面图;步骤(13):根据浏览页面图中页面之间的链接关系和浏览页面之间的相似度,计算浏览页面图的边集合E中任意条边所对应的两个浏览页面是否互为邻居,如果不互为邻居,则判定两个浏览页面的主题不一致,从浏览页面图中删除该边;反之,保留该边;步骤(14):采用深度优先的方式遍历浏览页面图,得到浏览页面图的所有连通分量;步骤(15):将浏览页面图中的每一个节点数量大于阈值的连通分量都作为一个用户的兴趣浏览页面聚类,按照聚类相似度合并具有相似主题的聚类;步骤(16):将剩余的节点分配到与其相似度最大的聚类中,并重新计算每一个聚类的中心。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第二十八研究所,未经中国电子科技集团公司第二十八研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410086236.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top