[发明专利]基于动态网格哈希索引的密度聚类方法及装置在审
申请号: | 202010436841.2 | 申请日: | 2020-05-21 |
公开(公告)号: | CN111612069A | 公开(公告)日: | 2020-09-01 |
发明(设计)人: | 毛睿;张贺;陆敏华;廖好;王毅;刘刚 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 深圳市智胜联合知识产权代理有限公司 44368 | 代理人: | 齐文剑 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 网格 索引 密度 方法 装置 | ||
本申请提供了一种基于动态网格哈希索引的密度聚类方法及装置,通过获取增量预设信息,包括:D:增量数据集;Eps:半径;Minpts:是否为核心点的判定阈值;unAttr:数值不确定的维度;依据所述获取增量预设信息,通过所述密度聚类方法,生成在所述原数据集基础上进行增量聚类后的数据集;循环结束后得到完成增量聚类的数据集。通过引入针对不确定数据进行相应改造的新索引结构并,使算法的时间复杂度由O(n2)降为O(n),空间复杂度由O(n2)降为O(1);使算法适用于动态数据集,增量聚类比全量聚类更高效;在新提出的GH‑PDBSCAN算法的基础上结合DGridHash索引结构再提出Incremental GH‑PDBSCAN算法,使其适用于动态的不确定性数据集合的聚类。
技术领域
本申请涉及数据处理领域,特别是基于动态网格哈希索引的密度聚类方法及装置。
背景技术
在计算机科学中,不确定的数据是指包含噪声的数据,这些噪声使得原始数据偏离正确的值,当数据库中存在这样的数据,就需要引入概率计算。
目前,PDBSCAN是属性不确定性数据的聚类算法。PDBSCAN算法思想来源于DBSCAN算法,但是DBSCAN算法只适用于确定性数据,而PDBSCAN算法则引入了概率代替之前确定的数值,使其适用于不确定性数据类型。PDBSCAN算法的算法步骤如下:
算法1:PDBSCAN
输入:
D:不确定性数据集;Eps:搜索半径;
Minpts:是否为核心点的判定阈值;F_value:直接密度可达的概率阈值;输出:数据集及相应的类标签;
算法过程:
算法1描述了PDBSCAN算法,算法2是其扩展聚类的具体细节。clu_num=k意味着当前的聚类类别是k,k是正整数。class(i)=0.-1或者1……k分别意味着数据对象oi尚未分类,已经确定属于噪音或者1……k中的某个类。type(i)=0.-1或者1分别意味着数据对象oi是边界点,噪音点还是核心点。visited(i)=1或者0分别意味着数据对象oi已经被处理或者没有被处理。
算法1中,初始化完毕之后(1-2行),PDBSCAN算法开始访问数据点op并计算PNeighborhood(op)及PNEps(op)(3-5行),如果PNEps(op)等于1,则意味着该点Eps近邻里只有一个点,故判定它为噪音(6-7行)。PNEps(op)在1到Minpts之间,则尚不足直接判定该数据对象的类型,当PNEps(op)大于等于Minpts时,意味着该点为核心点,PDBSCAN算法将其直接密度可达的概率值大于阈值f_value的数据归为同一个类(8-16),并且调用Expand_cluster函数对现有的聚类进行扩展。当扩展的步骤完成之后,则对类标签为0的数据点再次处理,并把它们归于噪音点。
以下是PDBSCAN算法中涉及到的函数Expand_cluster的算法步骤。算法2:Expand_cluster(PNeighborhood(op).′clu_num,f_value,Minpts)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010436841.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种耐高温的硬质PVC管件及其生产工艺
- 下一篇:一种布料退卷装置