[发明专利]一种流聚类的方法、装置、电子设备及介质在审
申请号: | 201910844459.2 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110555144A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 钟韬 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
代理公司: | 11413 北京柏杉松知识产权代理事务所(普通合伙) | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本点 目标质心 预设距离 聚类 数据库 电子设备 聚类技术 预设 质心 样本 检测 | ||
本发明实施例提供了一种流聚类的方法、装置、电子设备及介质,涉及聚类技术领域,以实现对新增样本的实时聚类。本发明实施例的方案包括:若检测到数据库中存在新增样本点,则判断是否存在与所述新增样本点之间的距离小于预设距离的目标质心,其中,质心为所述数据库中的簇包括的预设数量个样本点的特征平均值,若存在与所述新增样本点之间的距离小于预设距离的目标质心,则将所述新增样本点加入所述目标质心对应的簇。
技术领域
本发明涉及聚类技术领域,特别是涉及一种流聚类的方法、装置、电子设备及介质。
背景技术
目前,随着数据库中的数据不断增加,需要对数据库中的对象进行聚类处理,其中,聚类是指对数据库中的对象按照数据的特征进行分类。分类后的每类数据分别称为一簇,目前有很多已经很成熟的聚类方法,例如,基于密度的聚类方法,快速聚类方法等。
但是,目前使用现有技术对数据库中的对象进行聚类时,如果有新的对象进入数据库,需要对数据库中的新的对象与已经聚类完成的对象重新进行一次聚类,这样不仅耗时,而且浪费聚类使用的处理资源。
发明内容
本发明实施例的目的在于提供一种流聚类的方法、装置、电子设备及介质,以实现对新增样本的实时聚类,具体方案如下:
第一方面,本发明实施例提供一种流聚类的方法,包括:
若检测到数据库中存在新增样本点,则判断是否存在与所述新增样本点之间的距离小于预设距离的目标质心,其中,质心为所述数据库中的簇包括的预设数量个样本点的特征平均值;
若存在与所述新增样本点之间的距离小于预设距离的目标质心,则将所述新增样本点加入所述目标质心对应的簇。
在一种可能实现的方式中,将所述新增样本点加入所述目标质心对应的簇,包括:
若所述目标质心的数量为1,则将所述新增样本点加入所述目标质心对应的簇;
若所述目标质心的数量大于1,则将所述新增样本点加入其中一个目标质心对应的簇,并将各目标质心对应的簇合并为一个簇。
在一种可能实现的方式中,所述方法还包括:
若不存在与所述新增样本点之间的距离小于所述预设距离的目标质心,且所述新增样本点与所述数据库中的临时离散点满足聚类条件,则将所述新增样本点与所述数据库中的临时离散点聚为一簇,所述临时离散点为不属于所述数据库中任何一个簇的样本点;
若不存在与所述新增样本点之间的距离小于所述预设距离的目标质心,且所述新增样本点与所述数据库中的临时离散点不满足聚类条件,则确定所述新增样本点为临时离散点。
在一种可能实现的方式中,将所述新增样本点加入所述目标质心对应的簇之后,所述方法还包括:
重新确定所述目标质心对应的簇的质心;
若存在与重新确定的质心之间的距离小于所述预设距离的质心,则将与重新确定的质心之间的距离小于所述预设距离的质心对应的簇,与所述目标质心对应的簇合并为一个簇。
在一种可能实现的方式中,所述方法还包括:
若接收到样本点删除指令,则判断所述样本点删除指令指示删除的待删除样本点是否为临时离散点;
若所述待删除样本点是临时离散点,则删除所述待删除样本点;
若所述待删除样本点不是临时离散点,则删除所述待删除样本点,并判断所述待删除样本点所属簇中的剩余样本点数量是否小于预设样本点数量阈值;
若所述待删除样本点所属簇中的剩余样本点数量不小于预设样本点数量阈值,则重新计算所述待删除样本点所属簇的质心;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910844459.2/2.html,转载请声明来源钻瓜专利网。