[发明专利]融合时间衰减因子的LFM训练样本构建方法有效
申请号: | 201911356445.2 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111191707B | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 甘志刚;饶屾;蒋晓宁;余长宏;余斌霄 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F18/214 | 分类号: | G06F18/214;G06F18/24;G06N20/00;G06F16/9537;G06Q30/0282;G06Q30/0601;G06F123/02 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 姚宇吉 |
地址: | 310000 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 时间 衰减 因子 lfm 训练 样本 构建 方法 | ||
本发明提供一种融合时间衰减因子的LFM训练样本构建方法,包括如下步骤:S1)获取正样本;S2)计算整个训练集中物品的流行度;S3)评估样本库数据的多样性;S4)给出不同样本库组成时的算法推荐准确度和召回率;S5)选择最优流行度占比的样本作为负样本;S6)将正、负样本共同组成用户的训练样本库。本发明的优点为:综合考虑物品流行度和样本多样性对推荐性能的影响并融合时间衰减因子,通过实验给出不同样本库组成时的算法推荐准确度和召回率,分析得出最优流行度占比,从而得到最优的负样本,获得较好的FC‑LFM算法训练效果。
技术领域
本发明涉及互联网大数据处理技术领域,具体涉及一种融合时间衰减因子的LFM训练样本构建方法。
背景技术
融合时间衰减因子的LFM方法(FC-LFM)是一种基于机器学习的隐语义模型,每个用户的用户特征矩阵P和物品特征矩阵Q都是对训练样本进行学习来产生,因此,训练样本库的构建方法就显得尤为重要。传统的LFM对用户u的训练样本的构建方法是将用户u评价过的物品作为正样本,其评价值设为1,再从训练集中随机抽取一定数量的用户u没有评价过的物品,组成负样本,其评价值设为0。将正、负样本组成用户u的训练样本。
由于负样本是表示用户不感兴趣的物品,而用户没有评价过的物品中,也许有些物品是因为不够流行,导致用户并不知道该物品,而不一定是用户不喜欢的类型。完全随机的抽取用户没有评价过的物品作为负样本,因没有考虑到用户不知道该物品而没有评价的原因,会导致推荐准确率下降。但是,如果负样本采集过于集中于流行度高的物品,又会导致训练样本库的多样性损失,同样会降低推荐准确率,因此,需要通过实验找到样本流行度与多样性相互影响的平衡点,作为样本组成的依据。
发明内容
本发明提供一种综合考虑物品流行度和样本多样性对推荐性能的影响、融合时间衰减因子的LFM训练样本构建方法。
为了达到上述目的,本发明通过以下技术方案来实现:
融合时间衰减因子的LFM训练样本构建方法,包括如下步骤:
S1)从训练样本中获得用户u评价过的物品,数量为Sp,作为正样本;
S2)计算整个训练集中的物品的流行度:
其中,ui表示对物品i做出过评价的用户,Tr表示训练集,fit表示物品i在t时刻的时间衰减因子;
其中,tnow是当前时间,是用户对物品i做出评价的时间,时间单位为天;
S3)采用辛普森多样性指数(Simpson index)来评估样本库的数据多样性,公式为:
其中,S表示整个样本集,Pi表示抽取的样本落在i区间的概率;
S4)对流行度从高到低的顺序进行排序,分别用流行度前10%、20%、30%、....、100%作为样本库,并从中随机抽取负样本构建学习样本库,保持参数α=0.1,正则化参数λ=0.01不变,训练集迭代次数epochs=10,分类数K=30,正负样本比为1:10,给出不同样本库组成时的算法推荐准确度和召回率,并制表比对;
准确率描述推荐列表中包含多少比例的物品是用户确实看过的,其计算公式为:
召回率是描述测试集T中用户看过的物品有多少比例出现在推荐列表中,其计算公式为:
其中,T表示测试集,R(u)表示依据推荐算法对用户u推荐的物品列表,T(u)表示用户u在测试集T中真实评价过的物品;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911356445.2/2.html,转载请声明来源钻瓜专利网。