[发明专利]一种对象聚类方法、装置及介质在审
申请号: | 202011298103.2 | 申请日: | 2020-11-18 |
公开(公告)号: | CN112508059A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 钟文良;陈文静;刘喆一;沈玮 | 申请(专利权)人: | 粤开证券股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F40/216 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 颜希文;郝传鑫 |
地址: | 510000 广东省广州市广州经济技术*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对象 方法 装置 介质 | ||
1.一种对象聚类方法,其特征在于,所述方法包括:
获取多个对象的指标数据;
对所述多个对象的指标数据进行预聚类,得到预设数量个对象指标数据集和所述预设数量个对象指标数据集各自对应的主题词分布信息;
基于所述预设数量个对象指标数据集对应的主题词分布信息,从所述预设数量个对象指标数据集中分别确定所述预设数量个聚类指标;
基于预设对象关联指标和所述预设数量个聚类指标,确定目标聚类指标数据;
确定狄利克雷过程混合模型中的先验分布;
基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息。
2.根据权利要求1所述的方法,其特征在于,所述确定狄利克雷过程混合模型中的先验分布包括:
构建所述多个对象的指标数据的分布参数所服从的先验分布,所述分布参数所服从的先验分布为狄利克雷过程;
确定所述隐变量所服从的先验分布。
3.根据权利要求2所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息包括:
构建所述隐变量所服从的变分分布,所述隐变量包括所述多个对象的对象类别信息和独立变量,所述变分分布包含变分参数;
更新所述变分参数,直至所述隐变量所服从的变分分布与隐变量所服从的后验分布的相对熵满足第一预设条件,所述隐变量所服从的后验分布为与所述隐变量所服从的先验分布对应的后验分布;
基于更新后的隐变量所服从的变分分布和所述目标聚类指标,对所述隐变量所服从的后验分布求近似解,得到所述多个对象的对象类别信息。
4.根据权利要求3所述的方法,其特征在于,所述隐变量所服从的变分分布包括包含服从于贝塔分布的独立变量、服从于所述预设基分布的独立变量和服从于多项式分布的对象类别变量的变分分布。
5.根据权利要求1所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息之后,所述方法还包括:
利用轮廓系数对所述多个对象的对象类别信息进行分析;
确定每个对象的分析结果是否满足第二预设条件;
当所述多个对象的分析结果均满足所述第二预设条件时,确定所述多个对象各自对应的对象类别信息为所述多个对象各自对应的目标对象类别信息。
6.根据权利要求2所述的方法,其特征在于,所述基于所述狄利克雷过程混合模型中的先验分布和所述目标聚类指标,对所述多个对象进行聚类,得到所述多个对象的对象类别信息包括:
构建所述隐变量所服从的变分分布,所述变分分布包含变分参数,所述隐变量包括所述多个对象的对象类别信息和独立变量,所述隐变量所服从的后验分布为与所述隐变量所服从的先验分布对应的后验分布;
基于所述隐变量所服从的变分分布与所述隐变量所服从的后验分布确定证据下界;
更新所述变分参数,直至所述证据下界满足预设第三预设条件;
基于更新后的隐变量所服从的变分分布和所述目标聚类指标,对所述对象类别信息所服从的后验分布进行求解,得到多个对象的对象类别信息。
7.根据权利要求1所述的方法,其特征在于,所述获取多个对象的指标数据包括:
获取多个对象的源数据;
利用离差标准化函数对所述多个对象的源数据进行归一化处理,得到所述多个对象的指标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于粤开证券股份有限公司,未经粤开证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011298103.2/1.html,转载请声明来源钻瓜专利网。