[发明专利]一种基于协同过滤的预测值校正方法有效
| 申请号: | 201310226486.6 | 申请日: | 2013-06-07 |
| 公开(公告)号: | CN103279677A | 公开(公告)日: | 2013-09-04 |
| 发明(设计)人: | 贺樑;王伟杰;向平;李明耀;陈国梁;杜泽宇 | 申请(专利权)人: | 华东师范大学 |
| 主分类号: | G06F19/00 | 分类号: | G06F19/00 |
| 代理公司: | 上海蓝迪专利事务所 31215 | 代理人: | 徐筱梅;张翔 |
| 地址: | 200241 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 协同 过滤 预测 校正 方法 | ||
技术领域
本发明涉及信息推荐技术领域,具体地说是一种基于协同过滤的预测值校正方法,尤其是一种基于训练集预测评分概率分布的预测值校正的方法。
背景技术
协作过滤算法作为最成功的个性化推荐技术已经被应用到很多领域中。算法产生的预测值通常是一个小数,在利用训练评分数据训练预测模型的过程中,因为训练数据集评分分布的特点,会造成预测模型预测出的评分与真实评分具有一定的偏差,而通过把预测出的评分校正到更为准确的整数上,可以减少预测评分与真实评分之间的差异,并且通常电影视频推荐系统中需要将推荐依据呈现给用户,而推荐依据的选择一般以预测的评定星级为主,因此将推荐还需要校正为对应到某个评分级别的整数也是十分必要的。
在传统的协同过滤推荐系统中,传统的方法按照“四舍五入”原则产生校正值,考虑过于简单,忽略了用户的评分趋势,并且缺乏足够的理论依据,因此,此方法并不太合理。另一种方法是基于用户评分趋势的预测值校正方法。该方法综合考虑预测值与评分级别之间的偏离,以及用户的评分趋势,再对预测值进行校正,此方法较第一种更为合理。但当用户项目评分矩阵极度稀疏时,校正未知评分的算法复杂度是极高的。
发明内容
本发明的目的是针对现有协同过滤推荐系统的预测值校正方法的技术缺陷而提供的一种基于协同过滤的预测值校正方法,根据该方法可以将预测评分校正为更为准确的一个整数。
实现本发明目的的具体技术方案是:
一种基于协同过滤的预测值校正方法,该方法包括以下具体步骤:
a.给定任何一个已知的协同过滤评分预测模型,获得并确定各个评分级别所有训练评分相对应的预测评分的概率分布;具体包括:
ⅰ)通过统计分析方法,可以确定各个评分级别的预测评分的概率分布符合由均值和方差两个参数而确定的高斯分布;
ⅱ)根据高斯概率分布求参的方法,计算各个评分级别预测评分对应概率分布(高斯分布)的参数(均值和方差);
b.针对待校正的预测评分,计算小于其值的各个评分级别概率函数在该预测评分上的概率之和P1,并且也计算大于其值的各个评分级别概率函数在该预测评分上的概率之和P2;
c.若P1与P2的差的绝对值小于一定阈值,则跳到d步骤,否则跳至e步骤;
d.对待预测的评分采用四舍五入的方式,校正为相应的最终预测值,结束;
e.确定预测评分取某一整数时的目标函数;具体包括:
ⅰ)对于预测评分x,其向下取向整数r0的目标函数为:
ⅱ)对于预测评分x,其向上取向整数r0的目标函数为:
f.计算预测评分取某一整数时的目标函数的值;具体包括:
ⅰ)计算待校正的预测评分向下取各整数的目标函数的值;
ⅱ)计算待校正的预测评分向上取各整数的目标函数的值;
g.选择目标函数中值最大的所对应的取向整数作为待校正预测评分的最终预测值,结束。
与背景技术相比,本发明有以下优点:
本发明在校正预测时评分时,考虑到了预测模型训练过程中全局预测评分的概率分布,利用统计学的方法,设计出了一种有强理论依据的预测值校正的方法。
本发明是针对同一预测评分校正的整数是相同的,因此在时间复杂度上是非常小的,更为有效。
本发明在大量数据集上的实验也证明了其更为准确的预测值校正的方法。
附图说明
图1为本发明流程示意图。
具体实施方式
通过参阅附图及以下对非限制性实施例所作的详细描述,本发明的特征、目的和优点将会变得更明显。
本发明应用于视频、电子商务等推荐系统中,首先确定训练集中不同评分级的预测评分的概率分布情况,对于非训练集的用户-项目评分对,根据训练集中得到的预测评分的概率分布,对预测出来的评分进行预测值的校正,使其平均绝对误差值最小。其具体方法描述如下:
第一步:获得训练集中不同评分级别的各自预测评分的概率分布,设定评分级别为1到5的整数,记作r,其预测评分r的概率分布为:fr,预测评分x,取向整数r0;
第二步:针对预测评分x,分别计算小于其值的评分的概率分布函数的概率之和大于其值的评分的概率分布函数的概率和计算
第三步:确定一个阀值若|Diff(x)|≤Threshold,则跳至第四步,否则跳至第五步;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310226486.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:硫醇调味组分
- 下一篇:一种水库坝下河道水温分布测算方法
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用





