[发明专利]一种相似用户选取方法及装置有效
| 申请号: | 201710390358.3 | 申请日: | 2017-05-27 |
| 公开(公告)号: | CN107247753B | 公开(公告)日: | 2018-12-04 |
| 发明(设计)人: | 王娜;王文君;陈昭男 | 申请(专利权)人: | 深圳大学 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 深圳市恒申知识产权事务所(普通合伙) 44312 | 代理人: | 王利彬 |
| 地址: | 518000 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 相似 用户 选取 方法 装置 | ||
1.一种相似用户选取方法,其特征在于,所述方法包括:
获取全部用户的内容查看历史数据,所述用户的内容查看历史数据包括用户的全部历史内容及各所述历史内容的查看时间点,所述历史内容为用户查看过的内容;
按照所述查看时间点的先后顺序对所述用户的全部历史内容进行排序,得到所述用户的历史查看内容序列;
对所述用户的历史查看内容序列进行连续词袋模型训练,得到连续词袋模型,以及所述历史内容的内容向量;
根据得到的所述内容向量计算所述用户的兴趣偏好,并根据所述用户的兴趣偏好计算各用户与目标用户的相似度;
选取与所述目标用户相似度最高的预置数量个用户作为所述目标用户的相似用户;
所述对所述用户的历史查看内容序列进行连续词袋模型训练,得到连续词袋模型,以及所述历史内容的内容向量,包括:
建立连续词袋模型的输入矩阵V和输出矩阵U,并对所述输入矩阵V和输出矩阵U进行随机初始化,其中,V∈Rn×|V|,U∈R|V|×n,n表示向量维度;
从所述用户的历史查看内容序列中选取一个所述历史内容xc作为中心内容,并读取所述中心内容的前后的各m个历史内容,并对读取出的2m个历史内容进行独热码编码,得到2m个所述历史内容的独热码,2m个所述历史内容的独热码分别表示如下:
x(c-m),...,x(c-1),x(c+1),...,x(c+m);
将2m个所述历史内容的独热码分别乘以所述输入矩阵V,得到2m个所述历史内容的输入内容向量,2m个所述历史内容的输入内容向量分别表示如下:
vc-m=Vx(c-m),...vc-1=Vx(c-1),vc+1=Vx(c+1),...,vc+m=Vx(c+m),vi表示所述历史内容的输入内容向量;
对2m个所述历史内容的输入内容向量求平均值
根据所述平均值计算得分向量z:
将所述得分向量z转换为概率分布
利用交叉熵作为目标函数,计算所述中心内容在所述输出矩阵U中的内容向量与所述概率分布之间的误差:其中,为所述概率分布,y为所述中心内容在所述输出矩阵U中的内容向量;
根据所述误差得到优化目标函数:
ui表示所述历史内容wi的输出内容向量;
采用梯度下降法对所述输出矩阵U中的所述中心内容的内容向量和输入矩阵中的2m个所述历史内容对应的内容向量进行更新,得到最终的输入矩阵V和输出矩阵U,得到所述连续词袋模型,并得到所述历史内容的内容向量;
所述根据得到的所述内容向量计算所述用户的兴趣偏好,包括:
根据聚类算法将所述用户的历史内容分为多个类别,获取各类别历史内容的类属中心向量;
获取所述用户在预设时间窗口内查看过的内容,并根据公式ci∈C,计算所述用户对各类别历史内容的兴趣偏好,其中I(u,ci)为所述用户u对所述类属中心向量为ci的类别的历史内容的兴趣偏好,n为所述预设时间窗口内用户u查看过的内容的数量,为所述预设时间窗口内用户u查看过的内容的内容向量的合集,σ为兴趣偏好参数。
2.如权利要求1所述的相似用户选取方法,其特征在于,所述根据所述用户的兴趣偏好计算各用户与目标用户的相似度,包括:
根据计算得到的所述用户对各类别历史内容的兴趣偏好,以及公式计算各用户与目标用户的相似度,其中sim(m,n)为用户m与目标用户n的相似度。
3.如权利要求1所述的相似用户选取方法,其特征在于,所述根据所述用户的兴趣偏好计算各用户与目标用户的相似度,包括:
根据计算得到的所述用户的兴趣偏好,建立全部用户的兴趣分布矩阵;
根据建立的全部用户的兴趣分布矩阵,计算各用户与目标用户的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710390358.3/1.html,转载请声明来源钻瓜专利网。





