[发明专利]一种社交网络的用户聚类方法、装置以及计算机设备有效
申请号: | 201911247467.5 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111125469B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 陈子忠;彭道万;夏书银;李曹枭 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06Q50/00 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 网络 用户 方法 装置 以及 计算机 设备 | ||
本发明属于机器学习与数据挖掘领域,具体为一种社交网络的用户聚类方法、装置以及计算机设备;所述方法包括获取社交网络中各个待聚类用户的账户信息,包括用户ID、用户地区、用户性别、用户粉丝数、用户关注数、内容标签以及发布时间;将社交网络中各个账户信息分别向量化,形成向量数据集;从所述向量数据集中选择多个向量分别作为初始聚类中心,按照初始聚类中心对用户分簇,按照分簇后的结果或聚类后的结果更新聚类中心,并按照聚类中心继续对各个用户聚类;直到聚类中心不再变化,得到聚类后的多个分类,每个分类至少包括一个待聚类用户;通过本发明改进的初始聚类中心的选择算法和改进的聚类框架,可以极大的降低计算量,进而提高了整个方法、装置的效率。
技术领域
本发明属于机器学习与数据挖掘领域,涉及的是聚类问题中的一种快速高效的k-means聚类算法及其在社交网络中的应用,具体为一种社交网络的用户聚类方法、装置以及计算机设备。
背景技术
社交网络分析是人类社会学分自然科学相结合的产物,关于社交网络的研究,包括了电子邮件、微信、QQ、新浪微博、Twitter、Facebook等等网络,而在社交网络中,存在着各式各样的对象,而想要将这些对象进行分类,最好的一个方法就是使用聚类算法,聚类分析是数据挖掘的一个重要领域,它的目的是发掘相似度高的对象组合成的团体,使得团体内的相似度高,而团体间的相似度小的特点。k-means聚类算法又是聚类算法中最常用、简单有效的算法之一。标准k-means聚类算法是由Steinhaus在1955年、Lloyd在1957年、BallHall在1965年、McQueen在1967年分别在各自的不同的科学研究领域独立提出的。聚类分析是对于统计数据分析的一门技术,如今在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息等。
传统的k-means算法在处理小批量数据场景下,表现得很好,不管是在效率上,还是在聚类的效果上。然而在社交网络中,需要对海量的用户数据进行处理,那么聚类算法的效率就显得尤为重要了。而以往的研究主要是用传统的一些聚类算法来做技术支撑,但传统的聚类算法在大数据场景下变得低效,主要表现在,收敛速度极慢、算法的时间复杂度高、对噪声和离群点敏感、聚类结果依赖初始的聚类中心等方面。
针对传统的k-means算法存在的问题,主要的改进可以分为以下三个方面,一是对于初始聚类中心的选取上;二是近似k-means;三是加速k-means。David Arthur等提出了一种基于采样方法(D2-sampling)的初始聚类中心点选择方法—k-means++。其核心为:最开始的质心间两两的距离要尽可能远。这是一种目前最为广泛应用的初始化聚类中心的方法,虽然这种方法改进了标准k-means算法随机选取初始中心点的缺点,其内在的有序性导致了它的可扩展型不足,从而使得算法无法并行扩展而应用在超大规模数据集上。在针对海量数据进行聚类的时候,近似k-means是一种非常有效的方法。近年来,学者们从不同的角度出发提出了很多种近似k-means方法:将数据点存储在k-d树中,并为树的每个节点维护候选中心的子集,这通过避免将每个点与所有中心点进行比较来消除计算时间。另一种方案是基于对数据点进行二次采样。这种方法是在子采样数据点上运行k均值,而它的扩展是以递增方式添加剩余点,并重新运行k-means以获得更精细的聚类。前一种方案不适用于许多应用,如社交网络应用中的聚类不太准确并且性能较低。而精确加速的k-means聚类方法也有很多种,但针对社交网络的海量数据场景下,仍然存在额外的时空消耗、不自适应等问题。
发明内容
本发明的目的是为了解决在社交网络场景下对海量数据进行聚类的所引起的效率问题,针对性的提出了一种基于划分的快速高效k-means聚类算法,具体提供了一种社交网络的用户聚类方法、装置以及计算机设备。
一种社交网络的用户聚类方法,所述方法包括:
步骤1:获取社交网络中各个待聚类用户的账户信息,包括用户ID、用户地区、用户性别、用户粉丝数、用户关注数、内容标签以及发布时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911247467.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种CPU水冷动力装置
- 下一篇:一种分级神经网络的案件情节精准量刑系统