[发明专利]基于用户需求的用户档案创建、个性化搜索排名方法和系统在审
申请号: | 201610005432.0 | 申请日: | 2016-01-04 |
公开(公告)号: | CN105677838A | 公开(公告)日: | 2016-06-15 |
发明(设计)人: | 孟绪颖;许志伟;王淼;张瀚文;张玉军 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇;叶北琨 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 用户 需求 档案 创建 个性化 搜索 排名 方法 系统 | ||
1.一种基于用户需求的用户档案创建方法,包括下列步骤:
1)对于每个用户,在该用户进行检索的过程中,提取该用户对于所返回页面的行为特 征和该用户所点击页面的页面特征向量,所述页面特征向量包括:能够反映页面布局的特 征、表征页面阅读难度的特征,以及页面数据量;
2)基于该用户点击过的多个页面的页面特征向量构造该用户的用户档案;对于所述用 户档案中的每一个页面,根据该用户对于该页面的行为特征设置该页面的用户偏好权重。
2.根据权利要求1所述的基于用户需求的用户档案创建方法,其特征在于,所述步骤1) 中,所述能够反映页面布局的特征包括:页面中各类HMTL标签各自的出现频次;所述表征页 面阅读难度的特征包括:页面的可读性等级和字符数。
3.根据权利要求1所述的基于用户需求的用户档案创建方法,其特征在于,所述步骤1) 和2)中,用户对于页面的行为特征包括:该用户在该页面的逗留时间。
4.根据权利要求3所述的基于用户需求的用户档案创建方法,其特征在于,所述步骤2) 还包括:对于所述用户档案中的每一个页面,在每个时间窗口,根据该页面在上一时间窗口 的用户偏好权重和当前时间窗口的该用户在该页面的逗留时间,更新该页面的用户偏好权 重。
5.一种个性化搜索排名方法,其特征在于,包括下列步骤:
a)对于任一查询用户,搜索引擎基于该查询用户提交的查询语句进行查询,返回初始 页面排名结果;
b)对于所述初始页面排名结果中的每个返回页面,计算该返回页面与当前查询用户的 用户档案的相似程度;其中,每个用户的所述用户档案包括该用户点击过的多个页面的页 面特征向量以及相应的用户偏好权重,其中,每个页面的所述用户偏好权重根据该用户对 于该页面的行为特征设置;
c)根据各个返回页面与当前查询用户的用户档案的相似程度、所述初始页面排名结果 以及各个返回页面的查询-页面相关程度,得到个性化搜索重排名结果。
6.根据权利要求5所述的个性化搜索排名方法,其特征在于,所述步骤b)中,所述用户 档案根据权利要求1~4中任一项所述的基于用户需求的用户档案创建方法创建。
7.根据权利要求5所述的个性化搜索排名方法,其特征在于,所述步骤b)中,计算所述 返回页面与当前查询用户的用户档案的相似程度的过程包括下列子步骤:
b1)根据页面相似度,从当前查询用户的用户档案中提取一组用户档案页面作为所述 返回页面的参照页面组;
b2)计算所述返回页面与参照页面组各个页面的页面相似度的加权和,得到所述返回 页面与当前查询用户的用户档案的相似程度;所述页面相似度根据所述页面特征向量的相 似度得出,计算所述加权时,各个页面相似度的权重为用户档案中该页面的当前用户偏好 权重。
8.根据权利要求7所述的个性化搜索排名方法,其特征在于,所述步骤b1)还包括:选择 与所述返回页面的页面相似度超过预设页面相似度阈值的用户档案页面组成所述参照页 面组。
9.根据权利要求5所述的个性化搜索排名方法,其特征在于,所述步骤c)还包括:根据 各个返回页面与当前查询用户的用户档案的相似程度,初始页面排名结果,以及查询-页面 相关程度,基于个性化排名模型得出页面重排名结果;其中,所述个性化排名模型根据返回 页面和用户档案的相似程度、初始页面排名结果和各个返回页面的查询-页面相关程度这 三个特征,以页面逗留时间长度为目标,基于有监督的机器学习算法训练得出。
10.一种个性化搜索排名系统,包括:
信息检索模块,用于对于每个用户,在该用户进行检索的过程中,提取该用户对于所返 回页面的行为特征和该用户所点击页面的页面特征向量,所述页面特征向量包括:能够反 映页面布局的特征、表征页面阅读难度的特征以及页面数据量;还用于对于任一查询用户, 搜索引擎基于该查询用户提交的查询语句进行查询,返回初始页面排名结果;
用户档案模块,用于基于该用户点击过的多个页面的页面特征向量构造该用户的用户 档案;以及对于所述用户档案中的每一个页面,根据该用户对于该页面的行为特征设置该 页面的用户偏好权重;
相似程度计算模块,用于对于所述初始页面排名结果中的每个返回页面,计算该返回 页面与当前查询用户的用户档案的相似程度;以及
重排名模块,用于根据各个返回页面与当前查询用户的用户档案的相似程度、初始页 面排名结果以及各个返回页面的查询-页面相关程度,得到个性化搜索重排名结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610005432.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于半监督的主题模型文本分类方法
- 下一篇:基于大数据的用户信息处理方法