[发明专利]用于将用户分配到集群的方法和系统有效

专利信息
申请号: 201210016687.9 申请日: 2006-08-15
公开(公告)号: CN102682059A 公开(公告)日: 2012-09-19
发明(设计)人: 马尤尔·达塔尔;阿舒托什·加尔格 申请(专利权)人: 谷歌公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中原信达知识产权代理有限责任公司 11219 代理人: 周亚荣;安翔
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 用户 分配 集群 方法 系统
【说明书】:

本申请是国际申请日为2006年8月15日、国际申请号为PCT/US2006/031868的PCT国际申请的、进入中国国家阶段的国家申请号为200680038100.7、题为“基于集的相似性的可扩展用户聚类”的专利申请的分案申请。

技术领域

本发明涉及数字数据处理,并且尤其涉及将计算机应用或系统的用户分组为集群(cluster)。

背景技术

将用户分组为集群的操作是出于多种目的。为了实现用户的个性化,例如一种众所周知的技术,即协同过滤(collaborative filtering),涉及将用户进行聚类(clustering)并把在用户集群中的其它用户已经表达过兴趣的项目推荐给用户。一般可以认为用户以多种方式表达对项目的兴趣,例如,通过点击项目、购买项目、或将项目添加到购物车。推荐可采用多种方式,例如以部分搜索结果的形式呈现给用户,以用户可能想要阅读的新闻故事的形式进行展现,对用户可能想要购买的项目进行确定等等。

一种实现用户聚类的方法是先定义两个用户之间的距离度量(distance measure),然后使用众所周知的诸如k-均值或分层合并聚类(HAC)的聚类算法将用户进行聚类。然而,这些技术有缺点。例如,HAC的运行时间为O(n2),对于数以亿计的n值是难以实现的;而k-均值算法需要代表数据点的均值,当数据点是集的时候,这是不可行的。

发明内容

在特定实施方式中,本发明可提供可扩展的用户聚类,其中每个用户都以代表取自全体项目之中的项目的元素集的形式来表示。

例如,当给定用户可以通过与计算机系统进行交互而选择的全体项目时,每个用户可以通过不同的行为(例如点击项目,购买项目,将项目添加到购物列表、查看项目等)来表达它们对项目的各个子集的兴趣。本发明的特定实施方式以此种方式将用户进行聚类(即将用户分配到集群),也就是在相同集群之中的用户可能在它们各自的项目子集之间具有高度的重叠。

一方面,符合本发明实施方式的计算机程序产品可使得数据处理装置为多个用户之中的每一个用户获得各自的兴趣集,每个兴趣集表示在其中各个用户已通过与数据处理系统进行交互而表达了兴趣的项目;对多个用户之中的每一个用户,确定各个兴趣集的k个散列值(hash value),其中第i个散列值是在对应的第i个散列函数之下的各个兴趣集之中的最小值,其中i是在1和k之间的整数,并且其中k是大于或等于1的整数;并且将多个用户之中的每一个用户分配到为各个用户所建立的各个k个集群中的每一个集群,第i个集群由第i个散列值所代表,其中将多个用户之中的每一个用户分配到k个集群的完成不考虑任何其它用户到k个集群的分配。

有利的实施方式可包括一个或多个下述特征。本产品可使得数据处理装置将表达用户兴趣的行为记录在日志中;并且使用该日志为多个用户生成兴趣集。

本产品可使得数据处理装置为多个用户之中的第一个用户获得已改变的兴趣集;使用已改变的兴趣集为第一用户确定k个散列值;并且将第一用户仅分配到由使用已改变的兴趣集所确定的k个散列值所代表的各个k个集群之中的每一个集群,而不改变任何其它多个用户到集群的分配。

在另一个方面,符合本发明实施方式的计算机程序产品可使得数据处理装置为用户获得兴趣集,兴趣集代表在其中用户已经通过与数据处理系统进行交互而表达了兴趣的项目;确定兴趣集的k个散列值,其中第i个散列值是在对应的第i个散列函数之下的兴趣集之中的最小值,其中i是在1和k之间的整数,并且其中k是大于或等于1的整数;并且将用户分配到k个集群中的每一个集群,第i个集群由第i个散列值所代表。

有益的实施方式可包括一个或多个下述特征。兴趣集有m个元素;第i个散列值是单向散列函数的m个应用的最小值,每一个m应用将第i个种子值和兴趣集之中的m个元素的各个元素进行散列。产品可使得数据处理装置来使用k个用户集群来为用户完成协同过滤。

另一方面,符合本发明实施例的系统包括:由多个用户使用数据处理系统所选择的项目的日志;用于使用指纹函数和项目的日志来将多个用户的每一个用户分配到k个集群的装置,其中k是大于或等于1的整数;并且基于第一用户到一个或多个k个集群的分配,可运行协同过滤计算机程序应用来将信息提供给多个用户的第一用户。

有益的实施方式可以包括一个或多个下述特征。信息包括推荐、预计、或排名之中的至少一种。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌公司,未经谷歌公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210016687.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top