[发明专利]用于对输入数据进行聚类的设备和方法在审
| 申请号: | 201880093500.0 | 申请日: | 2018-05-17 |
| 公开(公告)号: | CN112154453A | 公开(公告)日: | 2020-12-29 |
| 发明(设计)人: | 埃拉德·佐里夫;奥尔加·科根;尤尼·乔克伦 | 申请(专利权)人: | 华为技术有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;G06N20/00 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 518129 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 用于 输入 数据 进行 设备 方法 | ||
本发明提供一种用于对输入数据(101)进行聚类的设备(100)。所述输入数据为包括数据点的数据集。所述设备(100)包括:自动编码单元(102),用于在所述设备(100)的第一操作阶段中,降低所述输入数据(101)的维度,以及/或者从所述输入数据(101)中提取与聚类相关的特征,从而产生低维数据(103);聚类单元(104),用于在所述设备(100)的第二操作阶段中,根据所述低维数据(103)获得至少一个集群(105),以及将所述低维数据(103)中的每个数据点与所述至少一个集群(105)中的一个集群关联,其中,所述自动编码单元(102)优化所述低维数据(103),以对所述低维数据103进行无损重建。
技术领域
本发明涉及机器学习和聚类领域,即在大型数据集中发现相似结构的过程。更具体地,本发明涉及一种用于对输入数据进行聚类的设备及对应的方法,其中,所述设备包括自动编码单元和聚类单元。
背景技术
聚类是目前最基本的无监督机器学习问题之一。它的主要目标是将输入数据的数据集分成包括相似数据点的集群。例如,聚类可以用于根据用户行为对用户进行聚类,例如出于网络安全目的、针对IT运维的事件聚类、针对医疗保健应用或工业监控应用的聚类和异常检测。除了这些应用之外,聚类还有益于其它多种基本任务。例如,聚类可以用于监督学习的自动数据标记,也可以作为数据可视化和分析的预处理步骤。在现有技术中,维度降低和特征提取与聚类一起使用,以将输入数据映射到特征空间中。在特征空间中,考虑到当前问题的背景,分离到集群中更容易实现。使用深度神经网络(deep neural network,DNN)可以学习非线性映射,从而可以将输入数据转换为更易于聚类的表示。
在现有技术中,维度降低/特征选择和聚类分别在两阶段过程中处理,如图7所示。首先,通过自动编码器降低输入数据的维度并提取信息性特征。其次,对这些特征进行聚类。但是,自动编码器组件和聚类组件之间本身存在冲突:自动编码器选择输入数据的所有变化中能够被优化进行无损重建的特征,而聚类需要能够将所有数据变化降低到单个模板(即单个类别或单个聚类)的特征。
在许多情况下,自动编码器输出(在第一阶段获得的)会丢失对聚类(在第二阶段进行)重要的特征。一旦丢失这种信息,整体聚类的准确性变差。例如,如参照图8所述,当对改进的美国国家标准与技术研究院(Modified National Institute of Standards andTechnology,MNIST)数据库(即数据集)运行自动编码器时,丢失了重要的特征,这些特征对(例如)区分“9”和“4”(如图8A所示)很关键。MNIST数据库是一个大型的手写数字数据库,通常用于训练各种图像处理系统。因此,对传统自动编码器产生的数据运行聚类时的质心重建(参考图8B)显示:“9”存在两个质心,而“4”没有质心。T-分布随机近邻嵌入(T-Distributed Stochastic Neighbor Embedding,t-SNE)可视化也证明存在这个错误。
也就是说,现有技术需要准确性更高的聚类方案。
发明内容
鉴于上述问题和缺点,本发明旨在改进传统的聚类设备。本发明的目的是提供一种用于对输入数据进行聚类的设备。所述设备包括自动编码单元和聚类单元。所述自动编码单元采用自动编码算法。该算法甚至在所述聚类单元的聚类步骤中处理数据之前优化该数据,实现了数据的高可分离性。为此,所述自动编码单元接收输入数据(可以认为是包括数据点的数据集),并向所述聚类单元提供优化后的输出数据,即低维输出数据。自动编码器具体旨在实现由重建损失正则化的子空间维度最大化。换句话说,根据所述输入数据的重建损失参数,降低所述输入数据的维度。所述维度只降低到使得简化数据的重建损失最小化,并使得所述自动编码单元转发到所述聚类单元的低维数据得到优化,以获得高的聚类准确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880093500.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液体填充系统及其使用方法
- 下一篇:一种人机交互的方法及电子设备
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





