[发明专利]一种社交网络的用户聚类方法、装置以及计算机设备有效
申请号: | 201911247467.5 | 申请日: | 2019-12-09 |
公开(公告)号: | CN111125469B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 陈子忠;彭道万;夏书银;李曹枭 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06Q50/00 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王海军 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 社交 网络 用户 方法 装置 以及 计算机 设备 | ||
1.一种社交网络的用户聚类方法,其特征在于,所述方法包括:
步骤1:获取社交网络中各个待聚类用户的账户信息,包括用户ID、用户地区、用户性别、用户粉丝数、用户关注数、内容标签以及发布时间;
步骤2:将社交网络中各个账户信息分别向量化,形成向量数据集;
步骤3:从所述向量数据集中选择多个向量分别作为初始聚类中心,按照初始聚类中心对用户分簇,按照分簇后的结果或聚类后的结果更新聚类中心,并按照聚类中心继续对各个用户聚类;直到聚类中心不再发生变化时,得到聚类后的多个分类,每个分类至少包括一个待聚类用户;
步骤301:用改进的初始聚类中心方法从向量数据集中选取k个向量作为初始聚类中心;
步骤302:根据距离最近原则将所有的向量划分到距离它最近的聚类中心所代表的簇球中;
步骤303:计算每个簇球中所有向量的均值作为新的聚类中心,并计算簇球半径,所述半径定义为簇球中距离中心点最远的数据点与这个中心点之间的距离;
步骤304:根据簇球半径,和聚类中心之间的距离关系,找出每个簇的近邻簇,所述近邻簇定义为两个簇的中心点之间的距离的一半小于当前簇的半径,则为近邻簇;
步骤305:计算每个向量跟它所在近邻簇聚类中心之间的距离,过滤掉每个簇球中稳定域中的数据,对每个簇球中的稳定域以外的数据根据就近原则将其划分到距离最近的簇球内;所述稳定域定义为距离聚类中心近,且在本轮迭代中仍属于当前簇球的数据点所组成的集合;
步骤306:重复步骤303~步骤305,直到聚类中心不再发生变化时,输出聚类结果。
2.根据权利要求1所述的一种社交网络的用户聚类方法,其特征在于,所述将社交网络中各个账户信息分别向量化包括将每个账户信息的部分数据进行数字化转换成数字向量,将另一部分数据通过转向量sen2vec方法转化成语义向量,包括先使用预训练的词向量转化语义信息中的单词,对所有单词进行加权处理,再使用主成分分析法对整个语义信息集进行处理,得到每一条语义信息的向量表示;将数字向量与语义向量进行拼接,则对应为该待聚类用户账户信息的向量。
3.根据权利要求1所述的一种社交网络的用户聚类方法,其特征在于,所述步骤301包括:
步骤3011:从向量数据集中随机选择一个向量数据作为第一个初始聚类中心;
步骤3012:使用马尔科夫模特卡罗方法从向量数据集中采取长度为3k的马尔科夫链,将马尔科夫链上的3k个数据作为候选的初始聚类中心;
步骤3013:对这3k个向量数据集中的候选初始聚类中心,采用普里姆最小生成树的方法,重复将最近的两个初始聚类中心合并成一个新的初始聚类中心,直到最后只剩下k个数据当作初始聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911247467.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种CPU水冷动力装置
- 下一篇:一种分级神经网络的案件情节精准量刑系统