[发明专利]一种基于聚类算法和模式挖掘的船舶行为模式挖掘方法在审
申请号: | 202110247443.0 | 申请日: | 2021-03-05 |
公开(公告)号: | CN113032378A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 李永;陈菲娅 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2458;G06F16/29;G06K9/62 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 算法 模式 挖掘 船舶 行为 方法 | ||
1.一种基于聚类算法和模式挖掘的船舶行为模式挖掘方法,其特征在于,包括以下步骤:
(1)数据清洗、压缩:
①由于采集到的原始数据可能会存在异常点,所以对数据集进行清洗是必要的;规则为:
轨迹段的起始点和终点时间间隔大于24小时,则进行轨迹段划分;
定义速度最大值vmax,设定最大的速度vmax为110公里/小时;假设轨迹点p(lonp,latp,tp)是轨迹点q(lonq,latq,tq)在轨迹段中的前一轨迹点,那么tp>tq,两点间的速度计算为:
其中,lonp为轨迹点p的经度值,latp为轨迹点p的纬度值,tp为轨迹点p产生的时间;同理,lonq为轨迹点q的经度值,latq为轨迹点q的纬度值,tq为轨迹点q产生的时间;Haversine(latp,lonp,latq,lonq)为通过Haversine公式计算出的两个经纬度点间的距离;如果vpq≥vmax则表示q点产生的速度是异常的,则定义q点为异常点,将该点删除;
②对轨迹数据进行压缩,为了达到一个计算时间和计算误差的平衡,将轨迹压缩阈值threshold设为0.8km;
流程为:
将轨迹段上所有的点按时间顺序排列;
1)在轨迹段首尾两点A,B之间连接一条直线AB,该直线为轨迹段的弦
2)得到轨迹段上离该直线段距离最大的点C,计算其与AB的距离d;
3)比较该距离与预先给定的阈值threshold的大小,如果小于threshold,则该直线段作为轨迹段的近似,该段轨迹处理完毕;
4)如果距离大于等于阈值threshold,则用C将轨迹段分为两子轨迹段AC和BC,并分别对两段取弦进行1)~3)的处理;
当所有子轨迹段都处理完毕时,依次连接各个分割点形成的折线,即可以作为轨迹段的近似;
(2)设计改进型DBSCAN聚类方法:
①参数Eps邻域:一个对象p的Eps邻域是指以对象p为中心,以Eps为半径的区域内,即:
Neps(p)={q∈D|Dist(p,q)≤Eps}; (2)
式中,D为数据集;Dist(p,q)为对象p和对象q之间的距离;Neps(p)指数据集D对象p以Eps为半径的d维超球体区域内包含的点的集合;
利用核密度估计获取除第一个簇以外的邻域值Eps
针对船舶轨迹数据集D,数据集中存在独立同分布的n个样本点x1,x2,x3,…,xn,设数据集D的概率密度函数为f(x),f(x)的核密度估计形式如下:
其中,为核函数,核函数非负,积分为1,均值为0,i=1,2,…,n;是缩放核函数,由此,h为带宽,又称为窗口,n为样本数量;h>0;
对于h的选择,使用积分均方误差可以判断估计所得的概率密度函数和真实的概率密度函数f(x)两者存在的差异,表达式为
其中,E()表示括号内变量的数学期望;
在弱假设下
其中,o()表示括号内变量的高阶无穷小;AMISE为渐进积分均方误差,而AMISE有
为了使MISE(h)最小,转化为求极点问题
因此最优带宽
在上述关于带宽h表达式中,存在概率密度函数f(x)的二阶导数f″(x)表示密度估计函数各点的凹凸程度,取高斯密度核函数为核函数进行核密度估计,h的最佳选择即使积分均方误差最小化的带宽为
其中,表示样本方差;针对数据集D,利用数据集样本个数求得核密度估计最佳带宽h,将h作为对数据集进行聚类的Eps初始值;
②参数MinPts密度阈值描述了某一样本的距离为Eps的邻域中样本个数的阈值;
针对数据集D,遍历数据集D,记录每个数据点在Eps邻域中的对象个数M,M值可以作为数据集密度分布的依据;选取数据集D中M值最大的数据点为第一个核心对象D1,获取D1的M值作为初始MinPts,对第一个簇聚类,结束后从未被聚类的数据对象中选取M值最大的数据对象作为核心对象,进行下一次聚类;动态更新获取除第一个簇以外的簇聚类的密度阈值MinPts
其中,M(n)为当前核心对象的M值;M(max)记录D1的M值;表示的2次方的值;MinPts′为更新前的密度阈值;每聚类一次,密度阈值MinPts随着每一个簇聚类开始时第一个核心对象邻域的密度值M改变;
(3)对频繁项集进行序列挖掘;
经过对船舶数据集的聚类,最终生成聚类中心和类簇距离范围所代表轨迹的频繁项,以及由聚类中心组成的轨迹,从偏序现象中挖掘出经常出现的偏序规律,从而得到船舶的行为模式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110247443.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水固化注浆防水施工设备及工艺
- 下一篇:电子设备