[发明专利]一种面向分类属性数据的量子聚类算法改进方法在审
申请号: | 202210083256.8 | 申请日: | 2022-01-25 |
公开(公告)号: | CN114444590A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 赵鹏飞;柏安之;刘硕;崔威威 | 申请(专利权)人: | 中国船舶重工集团公司第七二四研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N10/60 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 分类 属性 数据 量子 算法 改进 方法 | ||
本发明提供了一种面向分类属性数据的量子聚类算法改进方法,根据分类属性数据自身的特性,利用量子势能函数计算出数据点的势能,解决了分类数据的潜在分类问题。将势能最低点作为聚类的中心,利用核宽度调节参数计算波函数的尺度参数,解决了分类属性数据的聚类范围。进一步,考虑了数据属性对分类结果的影响,利用传统欧式距离,给出了一种核宽度调节参数的估算公式,解决了样本的个数和维数之间内在关系的计算问题。本发明针对分类属性数据具有良好的计算准确率。
技术领域
本发明属于数据挖掘领域。
背景技术
随着航海信息技术的不断发展,由此带来的信息数据蕴含丰富的船舶信息,但如何利用好这些海量信息数据为船舶保驾护航成为最大难点。为了摆脱“数据丰富,知识贫乏”的困境,开始研究如何从海量数据中挖掘出有用、可用的信息。船舶航行轨迹是船舶行为最直观的体现,通过分析船舶轨迹,一方面可以获取海况信息,另一方面可以检测船舶航行行为。通过对船舶航行轨迹的提取、聚类、建模和异常检测,来实现对船舶行为的描述和分析并实现实时异常检测,可以在船舶异常行为发生的初期做出警示,及时发现安全隐患,确保船舶安全航行。在分类属性聚类研究方面,传统的研究需事先设定聚类的数目,才可以从样本的潜在信息里发现数据集的聚类中心和聚类数目。然而在海量船舶信息数据中,会有大量的冗余数据,传统的量子聚类算法并不能有效识别这些混合的冗余数据。现有文献在对量子聚类算法改进的研究主要分为两类。一类是通过对势能计算公式参数的调整,发现有效的势能最低点,然而忽略了距离对聚类效果的影响,由于巨大的数据量,以及复杂的势能计算公式,导致这类改进的量子聚类算法复杂度高,运行时间过长,难以满足实际应用需求。另一类的改进的量子聚类算法主要侧重于在聚类前的数据预处理,通过前期的数据预处理,来降低数据运行时间,但是数据预处理过程中,可能会造成有效的信息缺失。
发明内容
为解决量子聚类算法中存在的上述问题,本发明提供了一种面向分类属性数据的量子聚类算法改进方法。
本发明采用的技术方案如下:
步骤1、利用势能计算函数计算原始数据的势能分布,找出数据势能最低点;
步骤2、利用加权欧式距离计算原始数据点与势能最低点的度量矩阵D;
步骤3、根据度量矩阵D,计算满足距离测度条件d(xi,vc)≤β(1≤i≤n且i≠k)的所有样本,并将所述样本聚成第C类;从样本集X中删除C类样本;
步骤4、计算样本点的数量,若为空,停止计算;非空转入步骤1。
优选的,所述步骤2中度量矩阵D,计算借助加权欧式距离计算公式d(xi,xj),依据分类数据自身的属性进行计算:
其中:xi表示样本的点,sk表示样本的方差。
本发明提出了一种面向分类属性数据的量子聚类算法改进方法。当利用本发明进行聚类时,可以通过搜索量子力学中势函数的最小值来确定聚类中心,通过引入加权欧式距离计算出数据集中数据点与中心点的位置,从而判断判别混合数据的噪声点,在尽量不损失数据原始信息的前提下又可以降低运算复杂度。本发明可以有效的获取聚类中心和边界的准确信息。在实际应用中,本发明相对传统量子聚类算法的复杂度得到了降低,运算时间明显加快。同时加之对数据属性的考虑,本发明聚类效果也比传统量子聚类算法有所增强,运算准确率也得到提升。
附图说明
图1面向分类属性数据的量子聚类算法流程图。
图2为试验数据的三维图。
图3为试验数据的聚类结果。
图4为聚类参数β的调整对聚类中心个数的影响。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国船舶重工集团公司第七二四研究所,未经中国船舶重工集团公司第七二四研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210083256.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置