[发明专利]一种基于局部聚类的个性化差分隐私推荐方法有效
申请号: | 201711484447.0 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108256000B | 公开(公告)日: | 2021-06-15 |
发明(设计)人: | 刘树波;李永凯;蔡朝晖;王俊 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06K9/62 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 鲁力 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 个性化 隐私 推荐 方法 | ||
本发明涉及一种基于局部聚类的个性化差分隐私推荐方法。针对不同用户对不同物品隐私需求不一致的情形,首先对用户资料数据集进行抽样,然后利用抽样数据集选取目标用户的含噪KNN,进而基于局部相似度对物品进行聚类并利用聚类结果对用户资料进行改写,最后利用改写后用户资料计算推荐结果。本发明提出的方案具有较高的可用性,并且能够精确的保证任意用户的隐私需求。
技术领域
本发明属于具有隐私保护功能的推荐技术领域,尤其涉及一种个性化差分隐私协同过滤推荐方法。
背景技术
受益于电子设备制造技术的发展,人类社会每天都在产生大量的数据。据IBM的一份调查报告统计,在2002年,在线数据总量约为5EB(exabyte)。在2009年,该数据总量增至281EB,在7年时间内增长了56倍。另外,根据Forrester Research Inc.公司的研究,企业的储存的数据的总量每3年就翻一翻。明显的,现在无法单靠人力去全部浏览这些数据,并以此获取有效信息。推荐算法就是在这种情况下被提出,它可以让人们快速地从海量的数据中想要找到他们需要的信息。
这些推荐系统的一个核心技术是协作过滤(Collaborative Filtering,CF)算法。协同过滤算法通过学习类似用户(user-based)的模式或者发现类似物品(item-based)来预测用户的偏好。CF算法利用用户资料中的直接信息来提供精准的推荐。然而,这些信息具有的较高的敏感性,相关隐私信息的泄露得到广泛关注。而随着现代社会互联化、信息化的趋势不断深入,这种个人隐私泄露的风险越来越成为现实。基于这种隐私泄露的担忧,一系列带有隐私保护的协同过滤方案被提了出来。基于传统密码学的隐私保护方案或使用假名ID来隐藏用户记录真实ID,或使用一系列访问控制策略来将用户记录共享给特定用户组。这些方法被现有去匿名化攻击证明十分脆弱,安全性不强。
基于概率模型的差分隐私(Differential Privacy)模型被提出来应对以上诸多方案的不足。差分隐私要求单个记录数据对数据集处理结果的影响从概率上是微小可控的,并且差分隐私模型假定在最差情况下,攻击者拥有除数据本身以外的所有记录数据,这是攻击者理论上的攻击能力上限,因此能够抵御差分攻击即表明可以抵御所有已知和未知的隐私攻击。由于差分隐私具有上述隐私可量化、攻击能力可界定的良好性质,它被广泛地引入到诸多数据发布与查询应用领域。最近,将差分隐私方法也被引入到了CF推荐算法领域。值得一提的是,这些方法要么过于简单不能应对数据的更新;要么简单的认为所有用户的隐私偏好一致;要么没有考虑CF算法的局部化特点。
发明内容
针对现有技术存在的问题,本发明提供了一种基于局部聚类的个性化差分隐私推荐方法,适用于用户群体具有多种隐私偏好的个性化差分隐私推荐。
本发明思路如下:
在设计基于局部聚类的个性化差分隐私推荐方案时,需要注意到不同用户群体的隐私偏好不同。为实现个性化差分隐私,我们需要根据用户的隐私偏好对该用户的个人资料(如购买记录)进行抽样。在抽样时,我们计算某条记录的抽样概率,并将其与预设阈值进行比较。当该概率大于阈值时,该记录被保留;反之,该条记录被删除。利用抽样后的数据集,我们先计算目标用户的K-最临近邻居(KNN);随后在KNN中将物品(item)进行聚类;之后利用该聚类结果对KNN中用户的个人资料,按照差分隐私原则进行改写;最后,利用改写后的用户资料完成对目标用户的推荐。
为解决上述技术问题,本发明的技术方案如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711484447.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:内容推荐方法及装置
- 下一篇:一种人工智能通信数据监测系统