[发明专利]基于动态网格哈希索引的密度聚类方法及装置在审

申请号：	202010436841.2	申请日：	2020-05-21
公开（公告）号：	CN111612069A	公开（公告）日：	2020-09-01
发明（设计）人：	毛睿;张贺;陆敏华;廖好;王毅;刘刚	申请（专利权）人：	深圳大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	深圳市智胜联合知识产权代理有限公司 44368	代理人：	齐文剑
地址：	518000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于动态网格索引密度方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种基于动态网格哈希索引的密度聚类方法及装置，通过获取增量预设信息，包括：D：增量数据集；Eps：半径；Minpts：是否为核心点的判定阈值；unAttr：数值不确定的维度；依据所述获取增量预设信息，通过所述密度聚类方法，生成在所述原数据集基础上进行增量聚类后的数据集；循环结束后得到完成增量聚类的数据集。通过引入针对不确定数据进行相应改造的新索引结构并，使算法的时间复杂度由O(n2)降为O(n)，空间复杂度由O(n2)降为O(1)；使算法适用于动态数据集，增量聚类比全量聚类更高效；在新提出的GH‑PDBSCAN算法的基础上结合DGridHash索引结构再提出Incremental GH‑PDBSCAN算法，使其适用于动态的不确定性数据集合的聚类。

技术领域

本申请涉及数据处理领域，特别是基于动态网格哈希索引的密度聚类方法及装置。

背景技术

在计算机科学中，不确定的数据是指包含噪声的数据，这些噪声使得原始数据偏离正确的值，当数据库中存在这样的数据，就需要引入概率计算。

目前，PDBSCAN是属性不确定性数据的聚类算法。PDBSCAN算法思想来源于DBSCAN算法，但是DBSCAN算法只适用于确定性数据，而PDBSCAN算法则引入了概率代替之前确定的数值，使其适用于不确定性数据类型。PDBSCAN算法的算法步骤如下：

算法1：PDBSCAN

输入：

D：不确定性数据集；Eps：搜索半径；

Minpts：是否为核心点的判定阈值；F_value：直接密度可达的概率阈值；输出：数据集及相应的类标签；

算法过程：

算法1描述了PDBSCAN算法，算法2是其扩展聚类的具体细节。clu_num＝k意味着当前的聚类类别是k，k是正整数。class(i)＝0.-1或者1……k分别意味着数据对象o_i尚未分类，已经确定属于噪音或者1……k中的某个类。type(i)＝0.-1或者1分别意味着数据对象o_i是边界点，噪音点还是核心点。visited(i)＝1或者0分别意味着数据对象o_i已经被处理或者没有被处理。

算法1中，初始化完毕之后(1-2行)，PDBSCAN算法开始访问数据点o_p并计算PNeighborhood(o_p)及PN_Eps(o_p)(3-5行)，如果PN_Eps(o_p)等于1，则意味着该点Eps近邻里只有一个点，故判定它为噪音(6-7行)。PN_Eps(o_p)在1到Minpts之间，则尚不足直接判定该数据对象的类型，当PN_Eps(o_p)大于等于Minpts时，意味着该点为核心点，PDBSCAN算法将其直接密度可达的概率值大于阈值f_value的数据归为同一个类(8-16)，并且调用Expand_cluster函数对现有的聚类进行扩展。当扩展的步骤完成之后，则对类标签为0的数据点再次处理，并把它们归于噪音点。

以下是PDBSCAN算法中涉及到的函数Expand_cluster的算法步骤。算法2：Expand_cluster(PNeighborhood(o_p).′clu_num，f_value，Minpts)

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳大学，未经深圳大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010436841.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种耐高温的硬质PVC管件及其生产工艺
下一篇：一种布料退卷装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于动态网格哈希索引的密度聚类方法及装置在审

专利文献下载