[发明专利]用户分类方法及装置、项目推荐方法及装置在审
申请号: | 202111117007.8 | 申请日: | 2021-09-23 |
公开(公告)号: | CN113806637A | 公开(公告)日: | 2021-12-17 |
发明(设计)人: | 谷加祥;郭玮;张翔 | 申请(专利权)人: | 湖北天天数链技术有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q10/06;G06K9/62 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 衡滔 |
地址: | 430205 湖北省武汉市东湖新技术开发区*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 分类 方法 装置 项目 推荐 | ||
1.一种用户分类方法,其特征在于,所述方法包括:
获取用户属性数据集及初始聚类中心数量,所述用户属性数据集包括多个数据点,每个所述数据点对应一个用户的至少一维的用户属性;
对所述用户属性数据集中的数据点进行聚类,直至收敛,生成与所述初始聚类中心数量对应的多个第一簇;
确定各个所述第一簇的簇内评价指标和簇内用户数量,所述簇内评价指标用于表征簇内各数据点到聚类中心的平均距离,所述簇内用户数量与相应的第一簇中的数据点的数量对应;
在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时,根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整并根据调整后的聚类中心的数量对所述用户属性数据集中的数据点进行再次聚类,直至收敛,生成与所述调整后的聚类中心数量对应的多个第二簇。
2.根据权利要求1所述的方法,其特征在于,所述对所述用户属性数据集中的数据点进行聚类,直至收敛,生成与所述初始聚类中心数量对应的多个第一簇,包括:
从所述用户属性数据集中随机选取与所述初始聚类中心数量对应的多个数据点作为初始聚类中心;
根据预设公式计算所述用户属性数据集中的每个非聚类中心的数据点到各个初始聚类中心的距离;
将各个非聚类中心的数据点分到与其距离最近的初始聚类中心对应的簇中;
将每个簇的质心作为新的聚类中心,若新的聚类中心与当前聚类中心不同,则再次根据所述预设公式计算所述用户属性数据集中非聚类中心的数据点到各个新的聚类中心的距离,并将非聚类中心的数据点分到与其距离最近的聚类中心对应的簇中;以此类推,直至聚类后的每个簇的质心与前次的聚类中心相同。
3.根据权利要求1所述的方法,其特征在于,所述确定各个所述第一簇的簇内评价指标,包括:
基于公式:计算各个簇的簇内评价指标;
其中,Jej为第j个簇的簇内评价指标,N(Cj)为第j个簇的簇内用户数量,xi为第j个簇中用户的数据点,μj为第j个簇的聚类中心,Dist(xi,μj)表征xi和μj的海明距离。
4.根据权利要求1所述的方法,其特征在于,所述在确定所述簇内评价指标不满足标准簇内评价指标和/或所述簇内用户数量不满足标准簇内用户数量时,根据所述簇内评价指标、所述簇内用户数量、所述标准簇内评价指标和所述标准簇内用户数量对聚类中心的数量进行调整,包括:
针对每个第一簇,判断所述簇内用户数量是否小于所述标准簇内用户数量;
若所述簇内用户数量小于所述标准簇内用户数量,删除该第一簇对应的聚类中心;
若所述簇内用户数量大于所述标准簇内用户数量,判断所述簇内评价指标是否大于所述标准簇内评价指标;
若所述簇内评价指标大于所述标准簇内评价指标,将该第一簇内与聚类中心距离最近的用户的数据点作为新增的聚类中心。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北天天数链技术有限公司,未经湖北天天数链技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111117007.8/1.html,转载请声明来源钻瓜专利网。