[发明专利]基于用户需求的用户档案创建、个性化搜索排名方法和系统在审
申请号: | 201610005432.0 | 申请日: | 2016-01-04 |
公开(公告)号: | CN105677838A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 孟绪颖;许志伟;王淼;张瀚文;张玉军 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;叶北琨 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 需求 档案 创建 个性化 搜索 排名 方法 系统 | ||
技术领域
本发明涉及信息检索技术领域,具体地说,本发明涉及一种基于用户需求的用户 档案创建、个性化搜索排名方法和系统。
背景技术
目前,常用的搜索引擎只能根据查询语句文本相关程度对返回内容排名,并没有 考虑用户需求的多样性和动态性特征。随着网络数据的不断增长,这种仅基于文本相关程 度的排名方法越来越无法满足用户的要求。因此,如何适应不同用户的需求并对搜索所获 得的页面进行个性化排序已受到广泛的关注。
目前,基于用户需求的个性化排名主要是通过增强返回页面和用户偏好的话题相 关性来实现。这类基于话题相关性的排名方案中,首先收集用户的点击历史,并分析用户偏 好的话题,最终让返回结果中和用户偏好话题相关程度高的话题排在较靠前的位置。提取 用户偏好话题的方法主要分为两类,一类是参考ODP(OpenDirectoryProject)分类体系 获取页面话题,但ODP体系中话题类型的数目是一定的;另一类是基于话题模型LDA(Latent DirichletAllocation)通过页面文本内容提取话题,这种技术的话题分类的个数不固定 且准确率高于基于ODP体系的话题提取技术。
然而,不论是基于ODP体系还是基于话题模型LDA的话题提取,它们都是仅用话题 这一个特征来代表用户的偏好。而用户的偏好差异并不仅仅体现在话题这一个特征上,页 面的图片数目、阅读难度、页面长度等等内容也会影响用户体验。例如,有些用户偏好图片 或视频更多的页面,还有些用户偏好具有一定深度的页面,在表象上,就是偏好阅读难度更 高的页面。
另一方面,基于用户需求的个性化排名还存在其它一些尚待解决的难点。例如:用 户的偏好分布也存在着差异,在个性化选择的过程中无法实施同一个标准;用户偏好会随 着时间不断变化。
因此,当前迫切需要一种更加优化的基于用户需求的自适应个性化搜索排名解决 方案。
发明内容
因此,本发明的任务是提供一种准确度更高的基于用户需求的自适应个性化搜索 排名解决方案。
根据本发明的一个方面,提供了一种基于用户需求的用户档案创建方法,包括下 列步骤:
1)对于每个用户,在该用户进行检索的过程中,提取该用户对于所返回页面的行 为特征和该用户所点击页面的页面特征向量,所述页面特征向量包括:能够反映页面布局 的特征、表征页面阅读难度的特征,以及页面数据量;
2)基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案;对于所 述用户档案中的每一个页面,根据该用户对于该页面的行为特征设置该页面的用户偏好权 重。
其中,所述步骤1)中,所述能够反映页面布局的特征包括:页面中各类HMTL标签各 自的出现频次;所述表征页面阅读难度的特征包括:页面的可读性等级和字符数。
其中,所述步骤1)和2)中,用户对于页面的行为特征包括:该用户在该页面的逗留 时间。
其中,所述步骤2)还包括:对于所述用户档案中的每一个页面,在每个时间窗口, 根据该页面在上一时间窗口的用户偏好权重和当前时间窗口的该用户在该页面的逗留时 间,更新该页面的用户偏好权重。
根据本发明的另一个方面,提供了一种个性化搜索排名方法,包括下列步骤:
a)对于任一查询用户,搜索引擎基于该查询用户提交的查询语句进行查询,返回 初始页面排名结果;
b)对于所述初始页面排名结果中的每个返回页面,计算该返回页面与当前查询用 户的用户档案的相似程度;其中,每个用户的所述用户档案包括该用户点击过的多个页面 的页面特征向量以及相应的用户偏好权重,其中,每个页面的所述用户偏好权重根据该用 户对于该页面的行为特征设置;
c)根据各个返回页面与当前查询用户的用户档案的相似程度、所述初始页面排名 结果以及各个返回页面的查询-页面相关程度,得到个性化搜索重排名结果。
其中,所述步骤b)中,所述用户档案根据前文所述的基于用户需求的用户档案创 建方法创建。
其中,所述步骤b)中,计算所述返回页面与当前查询用户的用户档案的相似程度 的过程包括下列子步骤:
b1)根据页面相似度,从当前查询用户的用户档案中提取一组用户档案页面作为 所述返回页面的参照页面组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610005432.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于半监督的主题模型文本分类方法
- 下一篇:基于大数据的用户信息处理方法