[发明专利]一种融合评论文本和特征加权的四维张量分解推荐方法在审
| 申请号: | 202110308009.9 | 申请日: | 2021-03-23 |
| 公开(公告)号: | CN112860880A | 公开(公告)日: | 2021-05-28 |
| 发明(设计)人: | 刘桂红;万超静;张全贵 | 申请(专利权)人: | 辽宁工程技术大学 |
| 主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F40/30;G06N3/08;G06N3/04 |
| 代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营;张丽萍 |
| 地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 评论 文本 特征 加权 四维张量 分解 推荐 方法 | ||
1.一种融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,包括以下步骤:
S1、数据的采集及划分;将处理好的数据集随机选取80%的历史交互作为训练集,用于训练模型;其余作为测试集,用于评估模型的泛化能力;从训练集中随机选取10%的交互作为验证集,用于调整超参数;
S2、评论文本的处理:先进行词向量训练,运用doc2vec工具对评论文本处理得到文本的词向量表示,该向量的维度可在实验调参阶段自我设置,然后将得到的本文词向量输入LSTM神经网络中训练,从而得到具有深层语义的词向量;
S3、张量的构建:对用户、用户特征、项目、项目特征构建4维张量模型,其中用户特征和项目特征都是通过评论文本生成的特征向量;
S4、结合标签及评分数据的加权,结合评分数据与标签计算用户对项目的标签的偏好程度,然后将项目标签与项目特征作相关性分析,从而得到项目标签与项目特征的相关程度,最后将相关程度与偏好程度作内积;
S5、张量的分解及生成推荐:将加权后的张量应用高阶奇异值分解技术,通过对张量进行分解和重构近似张量,达到推荐的目的。
2.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S1的数据采集及划分的具体步骤如下:
S101、将下载的Moviedata-10M电影数据集进行数据预处理;
S102、使用10-core设置,即保留至少有10次交互的用户和项目;
S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集。
3.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S2中评论文本的处理的具体步骤如下:
S201、评论文本的收集:记用户u所写的所有评论文本为将评论文本用词向量表示为即为如下表示:
其中表示用户u评论中的第m个词,表示词对应的词向量,符号表示列向量的连接操作;
S202、评论文本的向量化表示:运用doc2vec分别对用户的评论文本集和项目的评论文本集训练;
S203、评论文本的深层语义挖掘:将上述表示用户及项目的向量输入到LSTM神经网络中,深入挖掘用户及项目的潜在特征。
4.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S3中张量的构建的具体步骤如下:
S301、张量的特征组成:张量模型由四元组{用户,用户的特征,项目,项目的特征}构成;
S302、张量的填充:张量的填充值为0或者1。
5.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S4中结合标签及评分数据的加权的具体步骤如下:
S401、标签向量化:由于每个项目都有一个或多个固定的标签,故可对这些标进行向量化处理,向量的维数大小等于标签的个数,当某项目具有某几个标签时,只需在标签向量的对应位填入1,没有的话则填0;
S402、用户对项目标签的偏好计算:用户观看了具有某标签的项目次数越多,表明用户对此标签的兴趣越大;用户观对具有某标签的项目评分越高,表明用户对此标签的兴趣越大,针对以上两点,可计算出用户对项目标签的偏好程度;
S403、项目标签与项目特征的相关性计算:运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系,项目标签是二元分类变量,项目特征是连续变量;
S404、张量加权:用户对项目特征的一个偏好,将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。
6.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法,其特征在于,所述步骤S5中张量的分解及生成推荐的具体步骤如下:
S501、张量降维:对张量在四个维度上分别降维;
S502、奇异值分解:将上一步骤在各个维度降维得到的矩阵A1、A2、A3分别作奇异值分解,通过奇异值分解组成的对角矩阵S(n),具体分解情况如下:
An=U(n)·S(n)·(V(n))T,1≤n≤4
通过低秩逼近对矩阵An的奇异值进行删减,能够很好地过滤掉由小的奇异值引起的噪声,达到降噪的目的;
S503、高阶奇异值分解;
S504、生成推荐:经过上述一系列操作,可以知道具有某种特征的用户对具有某种特征的项目的偏好程度,按偏好程度可形成推荐列表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110308009.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:远程可预测的激光偏振调节装置及方法
- 下一篇:一种多冗余的轴配流伺服阀





