[发明专利]基于动态网格哈希索引的密度聚类方法及装置在审

专利信息
申请号: 202010436841.2 申请日: 2020-05-21
公开(公告)号: CN111612069A 公开(公告)日: 2020-09-01
发明(设计)人: 毛睿;张贺;陆敏华;廖好;王毅;刘刚 申请(专利权)人: 深圳大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 深圳市智胜联合知识产权代理有限公司 44368 代理人: 齐文剑
地址: 518000 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 动态 网格 索引 密度 方法 装置
【说明书】:

本申请提供了一种基于动态网格哈希索引的密度聚类方法及装置,通过获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;依据所述获取增量预设信息,通过所述密度聚类方法,生成在所述原数据集基础上进行增量聚类后的数据集;循环结束后得到完成增量聚类的数据集。通过引入针对不确定数据进行相应改造的新索引结构并,使算法的时间复杂度由O(n2)降为O(n),空间复杂度由O(n2)降为O(1);使算法适用于动态数据集,增量聚类比全量聚类更高效;在新提出的GH‑PDBSCAN算法的基础上结合DGridHash索引结构再提出Incremental GH‑PDBSCAN算法,使其适用于动态的不确定性数据集合的聚类。

技术领域

本申请涉及数据处理领域,特别是基于动态网格哈希索引的密度聚类方法及装置。

背景技术

在计算机科学中,不确定的数据是指包含噪声的数据,这些噪声使得原始数据偏离正确的值,当数据库中存在这样的数据,就需要引入概率计算。

目前,PDBSCAN是属性不确定性数据的聚类算法。PDBSCAN算法思想来源于DBSCAN算法,但是DBSCAN算法只适用于确定性数据,而PDBSCAN算法则引入了概率代替之前确定的数值,使其适用于不确定性数据类型。PDBSCAN算法的算法步骤如下:

算法1:PDBSCAN

输入:

D:不确定性数据集;Eps:搜索半径;

Minpts:是否为核心点的判定阈值;F_value:直接密度可达的概率阈值;输出:数据集及相应的类标签;

算法过程:

算法1描述了PDBSCAN算法,算法2是其扩展聚类的具体细节。clu_num=k意味着当前的聚类类别是k,k是正整数。class(i)=0.-1或者1……k分别意味着数据对象oi尚未分类,已经确定属于噪音或者1……k中的某个类。type(i)=0.-1或者1分别意味着数据对象oi是边界点,噪音点还是核心点。visited(i)=1或者0分别意味着数据对象oi已经被处理或者没有被处理。

算法1中,初始化完毕之后(1-2行),PDBSCAN算法开始访问数据点op并计算PNeighborhood(op)及PNEps(op)(3-5行),如果PNEps(op)等于1,则意味着该点Eps近邻里只有一个点,故判定它为噪音(6-7行)。PNEps(op)在1到Minpts之间,则尚不足直接判定该数据对象的类型,当PNEps(op)大于等于Minpts时,意味着该点为核心点,PDBSCAN算法将其直接密度可达的概率值大于阈值f_value的数据归为同一个类(8-16),并且调用Expand_cluster函数对现有的聚类进行扩展。当扩展的步骤完成之后,则对类标签为0的数据点再次处理,并把它们归于噪音点。

以下是PDBSCAN算法中涉及到的函数Expand_cluster的算法步骤。算法2:Expand_cluster(PNeighborhood(op).′clu_num,f_value,Minpts)

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010436841.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top