[发明专利]一种融合评论文本和特征加权的四维张量分解推荐方法在审

申请号：	202110308009.9	申请日：	2021-03-23
公开（公告）号：	CN112860880A	公开（公告）日：	2021-05-28
发明（设计）人：	刘桂红;万超静;张全贵	申请（专利权）人：	辽宁工程技术大学
主分类号：	G06F16/335	分类号：	G06F16/335;G06F40/30;G06N3/08;G06N3/04
代理公司：	北京华夏正合知识产权代理事务所(普通合伙) 11017	代理人：	韩登营;张丽萍
地址：	123000 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种融合评论文本特征加权四维张量分解推荐方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种融合评论文本和特征加权的四维张量分解推荐方法，其特征在于，包括以下步骤：

S1、数据的采集及划分；将处理好的数据集随机选取80％的历史交互作为训练集，用于训练模型；其余作为测试集，用于评估模型的泛化能力；从训练集中随机选取10％的交互作为验证集，用于调整超参数；

S2、评论文本的处理：先进行词向量训练，运用doc2vec工具对评论文本处理得到文本的词向量表示，该向量的维度可在实验调参阶段自我设置，然后将得到的本文词向量输入LSTM神经网络中训练，从而得到具有深层语义的词向量；

S3、张量的构建：对用户、用户特征、项目、项目特征构建4维张量模型，其中用户特征和项目特征都是通过评论文本生成的特征向量；

S4、结合标签及评分数据的加权，结合评分数据与标签计算用户对项目的标签的偏好程度，然后将项目标签与项目特征作相关性分析，从而得到项目标签与项目特征的相关程度，最后将相关程度与偏好程度作内积；

S5、张量的分解及生成推荐：将加权后的张量应用高阶奇异值分解技术，通过对张量进行分解和重构近似张量，达到推荐的目的。

2.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法，其特征在于，所述步骤S1的数据采集及划分的具体步骤如下：

S101、将下载的Moviedata-10M电影数据集进行数据预处理；

S102、使用10-core设置，即保留至少有10次交互的用户和项目；

S103、将数据按照8:1:1的比例分别划分训练集、测试集和验证集。

3.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法，其特征在于，所述步骤S2中评论文本的处理的具体步骤如下：

S201、评论文本的收集：记用户u所写的所有评论文本为将评论文本用词向量表示为即为如下表示：

其中表示用户u评论中的第m个词，表示词对应的词向量，符号表示列向量的连接操作；

S202、评论文本的向量化表示：运用doc2vec分别对用户的评论文本集和项目的评论文本集训练；

S203、评论文本的深层语义挖掘：将上述表示用户及项目的向量输入到LSTM神经网络中，深入挖掘用户及项目的潜在特征。

4.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法，其特征在于，所述步骤S3中张量的构建的具体步骤如下：

S301、张量的特征组成：张量模型由四元组{用户，用户的特征，项目，项目的特征}构成；

S302、张量的填充：张量的填充值为0或者1。

5.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法，其特征在于，所述步骤S4中结合标签及评分数据的加权的具体步骤如下：

S401、标签向量化：由于每个项目都有一个或多个固定的标签，故可对这些标进行向量化处理，向量的维数大小等于标签的个数，当某项目具有某几个标签时，只需在标签向量的对应位填入1，没有的话则填0；

S402、用户对项目标签的偏好计算：用户观看了具有某标签的项目次数越多，表明用户对此标签的兴趣越大；用户观对具有某标签的项目评分越高，表明用户对此标签的兴趣越大，针对以上两点，可计算出用户对项目标签的偏好程度；

S403、项目标签与项目特征的相关性计算：运用Point-Biserial相关系数测量一组连续变量和一组二元分类变量的线性关系，项目标签是二元分类变量，项目特征是连续变量；

S404、张量加权：用户对项目特征的一个偏好，将这个用户对项目特征的偏好作为张量中用户对项目的偏好权重。

6.如权利要求1所述的融合评论文本和特征加权的四维张量分解推荐方法，其特征在于，所述步骤S5中张量的分解及生成推荐的具体步骤如下：

S501、张量降维：对张量在四个维度上分别降维；

S502、奇异值分解：将上一步骤在各个维度降维得到的矩阵A₁、A₂、A₃分别作奇异值分解，通过奇异值分解组成的对角矩阵S⁽ⁿ⁾，具体分解情况如下：

A_n＝U⁽ⁿ⁾·S⁽ⁿ⁾·(V⁽ⁿ⁾)^T,1≤n≤4

通过低秩逼近对矩阵A_n的奇异值进行删减，能够很好地过滤掉由小的奇异值引起的噪声，达到降噪的目的；

S503、高阶奇异值分解；

S504、生成推荐：经过上述一系列操作，可以知道具有某种特征的用户对具有某种特征的项目的偏好程度，按偏好程度可形成推荐列表。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学，未经辽宁工程技术大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110308009.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载