[发明专利]一种对象聚类方法、装置及介质在审
申请号: | 202011298103.2 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112508059A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 钟文良;陈文静;刘喆一;沈玮 | 申请(专利权)人: | 粤开证券股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/216 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;郝传鑫 |
地址: | 510000 广东省广州市广州经济技术*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对象 方法 装置 介质 | ||
本申请公开一种对象聚类方法、装置及介质,本申请通过获取多个对象的指标数据,并进行预聚类,得到预设数量个对象指标数据集和预设数量个对象指标数据集各自对应的主题词分布信息;基于预设数量个对象指标数据集对应的主题词分布信息,分别确定预设数量个聚类指标;基于预设对象关联指标和预设数量个聚类指标,确定目标聚类指标;基于目标聚类指标确定多个对象的指标数据的分布参数;确定多个对象的指标数据的分布参数所服从的先验分布;基于所述分布参数所服从的先验分布和目标聚类指标,对多个对象进行聚类,得到多个对象的对象类别信息,可以实现对数据量庞大、维度复杂的客户数据的客户类别划分。
技术领域
本发明涉及数据处理领域,尤其涉及一种对象聚类方法、装置及介质。
背景技术
随着大数据的不断发展,通过数据挖掘,企业可以发掘对象数据中隐藏的信息,从而有效识别不同类型的客户对象实现精准营销。对象聚类的研究被广泛应用在金融业和通信业中。现有技术中,在训练模型时,难以事先确定对象信息的标签,一般通过K-means算法、K-means算法的改进等聚类算法对对象信息进行聚类。但是这些聚类算法需要人为提前设定聚簇的数量值,且该值的选择会较大程度影响聚类的效果,限制了聚类的准确性。或者使用层次聚类,对对象信息进行聚类,不需要预先设定对象的类别数,但该算法与非层次算法相比在数据量较大时计算速度非常缓慢,并且终止条件不明确,不适用于样本量大、维度复杂的对象信息。
发明内容
为了解决上述技术问题,本发明提供一种对象聚类方法、装置及介质,可以实现对数据量大且维度复杂的对象指标数据进行聚类,大大提高了对象聚类的准确性和效率。
为了达到上述申请的目的,本申请提供了一种对象聚类方法,该方法可以包括:
获取多个对象的指标数据;
对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;
基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;
基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;
确定狄利克雷过程混合模型中的先验分布;
基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息
另一方面,本申请还提供一种对象聚类装置,该装置包括:
数据获取模块,用于获取多个对象的指标数据;
预聚类模块,用于对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;
聚类指标确定模块,用于基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;
目标聚类指标确定模块,用于基于预设对象关联指标和所述预设数量个聚类指标,确定所述目标聚类指标;
先验分布确定模块,用于确定狄利克雷过程混合模型中的先验分布;
聚类模块,用于基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。
另外,本申请还提供一种存储介质,该存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现上述任意一项对象聚类方法。
实施本申请,具有如下有益效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤开证券股份有限公司,未经粤开证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011298103.2/2.html,转载请声明来源钻瓜专利网。