[发明专利]一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法在审
| 申请号: | 202110273839.2 | 申请日: | 2021-03-15 |
| 公开(公告)号: | CN112949735A | 公开(公告)日: | 2021-06-11 |
| 发明(设计)人: | 薛善良;彭振峰;韦青燕;肖雪 | 申请(专利权)人: | 南京航空航天大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62 |
| 代理公司: | 南京天华专利代理有限责任公司 32218 | 代理人: | 瞿网兰 |
| 地址: | 210016 江*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 离群 数据 挖掘 液态 危化品 挥发 浓度 异常 发现 方法 | ||
1.一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法,其特征是,首先,引入去一划分信息熵确定离群属性的权重;然后,使用OPTICS聚类算法对气体浓度传感器采集到的原始数据集进行筛选得到初步离群数据集,提高算法的运行效率;用P权值代替LOF算法中的可达距离;最后,利用新定义的基于P权值的局部离群因子LOFBP(Local OutliersFactor based on P-weight)计算初步离群数据集中对象的离群程度,在保留算法的检测精度的同时提高执行效率。
2.根据权利要求1所述的方法,其特征在于它包括如下步骤:
步骤1:读取气体传感器原始数据集;
步骤2:计算数据集合中所有属性的去一划分信息熵增量;
步骤3:计算数据集合中所有对象可达距离;
步骤4:利用OPTICS算法获取初步离群数据集;
步骤5:计算初步离群数据集合中所有对象k距离、k距离邻域,计算P权值;
步骤6:计算基于P权值的局部密度;
步骤7:计算基于P权值的局部可达密度;
步骤8:降序输出局部可达密度,得到离群数据。
3.根据权利要求2所述的方法,其特征是,所述的OPTICS算法获取初步离群数据集包括:当邻域中的点加入无序队列后,并不需对整个无序队列进行排序,只需对比新加入点与原最小点即可取出可达距离最小点并将最小点存入临时变量;当需要处理非有序队列中新的点时,只需取出临时变量存储的最小点,通过这种方法得到可达图。
4.根据权利要求2所述的方法,其特征是,计算数据集合中所有属性的去一划分信息熵增量Δ(Ni)方法包括以下步骤:
a)为了提高离群点的检测的质量,采用加权距离度量OPTICS算法中数据对象之间的距离,属性的权重通过去一划分信息熵增量确定;信息熵用于衡量一个系统包含多少信息量,因此,信息熵E(x)值可以衡量一个数据集的不确定程度;其定义为:
E(x)=-[p(x1)·log p(x1)]-[p(x2)·log p(x2)]…-[p(xn)·log p(xn)] (1)
公式(1)中,x为随机变量,其可能的取值集合为s(x)={x1,x2,……,xn};
p(x)表示取值为x的概率;
b)为了突出表现离群的属性,通过去掉一个属性后熵值的变化定义相关属性的权重。设属性集合为N={N1,N2,…,Nm},取Ni(i=1,2,…,m),将N划分为两部分:{Ni}和{N-Ni},记做P={P1,P2},其中P1={Ni},P2={N1,N2,…,Ni-1,Ni+1,…,Nm},则去一划分信息熵增量Δ(Ni)定义为公式(2),其数值越大说明将Ni去除后数据集合的不确定性减少的越多:
Δ(Ni)=E(N)-E(P) (2)
公式(2)中,Δ(Ni)表示集合N去除Ni后的信息熵变化;
E(N)表示属性集合N的信息熵;
E(P)的计算公式为:
c)若两个数据对象分别为p={p1,p2,…,pm},p′={q1,q2,…,qm},它们之间的加权距离记为dist(p,p′),则基于去一划分信息熵增量的加权距离定义为:
dist(p,p′)=[Δ(N1)×d(p1,p′1)]+[Δ(N2)×d(p2,p′2)]+…+[Δ(Nm)×d(pm,p′m)](4)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110273839.2/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





