[发明专利]一种流聚类的方法、装置、电子设备及介质在审
申请号: | 201910844459.2 | 申请日: | 2019-09-06 |
公开(公告)号: | CN110555144A | 公开(公告)日: | 2019-12-10 |
发明(设计)人: | 钟韬 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62 |
代理公司: | 11413 北京柏杉松知识产权代理事务所(普通合伙) | 代理人: | 李欣;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本点 目标质心 预设距离 聚类 数据库 电子设备 聚类技术 预设 质心 样本 检测 | ||
1.一种流聚类的方法,其特征在于,包括:
若检测到数据库中存在新增样本点,则判断是否存在与所述新增样本点之间的距离小于预设距离的目标质心,其中,质心为所述数据库中的簇包括的预设数量个样本点的特征平均值;
若存在与所述新增样本点之间的距离小于预设距离的目标质心,则将所述新增样本点加入所述目标质心对应的簇。
2.根据权利要求1所述的方法,其特征在于,将所述新增样本点加入所述目标质心对应的簇,包括:
若所述目标质心的数量为1,则将所述新增样本点加入所述目标质心对应的簇;
若所述目标质心的数量大于1,则将所述新增样本点加入其中一个目标质心对应的簇,并将各目标质心对应的簇合并为一个簇。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若不存在与所述新增样本点之间的距离小于所述预设距离的目标质心,且所述新增样本点与所述数据库中的临时离散点满足聚类条件,则将所述新增样本点与所述数据库中的临时离散点聚为一簇,所述临时离散点为不属于所述数据库中任何一个簇的样本点;
若不存在与所述新增样本点之间的距离小于所述预设距离的目标质心,且所述新增样本点与所述数据库中的临时离散点不满足聚类条件,则确定所述新增样本点为临时离散点。
4.根据权利要求1-3任一项所述的方法,其特征在于,将所述新增样本点加入所述目标质心对应的簇之后,所述方法还包括:
重新确定所述目标质心对应的簇的质心;
若存在与重新确定的质心之间的距离小于所述预设距离的质心,则将与重新确定的质心之间的距离小于所述预设距离的质心对应的簇,与所述目标质心对应的簇合并为一个簇。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若接收到样本点删除指令,则判断所述样本点删除指令指示删除的待删除样本点是否为临时离散点;
若所述待删除样本点是临时离散点,则删除所述待删除样本点;
若所述待删除样本点不是临时离散点,则删除所述待删除样本点,并判断所述待删除样本点所属簇中的剩余样本点数量是否小于预设样本点数量阈值;
若所述待删除样本点所属簇中的剩余样本点数量不小于预设样本点数量阈值,则重新计算所述待删除样本点所属簇的质心;
若所述待删除样本点所属簇中的剩余样本点数量小于预设样本点数量阈值,则确定所述待删除样本点所属簇中剩余样本点为临时离散点。
6.根据权利要求3或5所述的方法,其特征在于,所述方法还包括:
获取所述数据库中临时离散点的数量;
若所述临时离散点的数量大于或等于预设数量阈值,则将所述数据库中的临时离散点删除。
7.一种流聚类的装置,其特征在于,包括:
判断模块,用于若检测到数据库中存在新增样本点,则判断是否存在与所述新增样本点之间的距离小于预设距离的目标质心,其中,质心为所述数据库中的簇包括的预设数量个样本点的特征平均值;
加入模块,用于若存在与所述新增样本点之间的距离小于预设距离的目标质心,则将所述新增样本点加入所述目标质心对应的簇。
8.根据权利要求7所述的装置,其特征在于,所述加入模块,具体用于:
若所述目标质心的数量为1,则将所述新增样本点加入所述目标质心对应的簇;
若所述目标质心的数量大于1,则将所述新增样本点加入其中一个目标质心对应的簇,并将各目标质心对应的簇合并为一个簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910844459.2/1.html,转载请声明来源钻瓜专利网。