[发明专利]分布式轨迹流伴随模式挖掘方法有效
申请号: | 202110921144.0 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113779105B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 张敬伟;张康威;杨青;陈亮;陈劲方 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/26;G06K9/62 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 轨迹 伴随 模式 挖掘 方法 | ||
1.分布式轨迹流伴随模式挖掘方法,其特征在于:包括以下步骤:
一、数据预处理:根据地理区域的划分将数据划分为多个区域,得到分区边界,输出分区编号;
步骤一中,分区过程如下所示:
(1)计算轨迹数据集的最大和最小经纬度,建立轨迹数据集的最小外接矩形Rectangle;
(2)对Rectangle均匀划分,使每个分区中包含相同数量的对象,并根据下式公式分别得到分区位置编号ni;
给定轨迹流快照si中轨迹的集合xi和yi表示对象oi在快照si的空间坐标,List为有序列表存储集合中所有对象的x轴坐标,则分区位置编号
其中size表示List的容量,N表示分区的数量,且0≤in;
(3)由ni生成对应的分区Regioni,其中Regioni的范围为(ni-r,ni+1+r),这里令r=ε,ε为密度连接的距离阈值;
二、监测不断到达的数据流;
三、当前快照创建时间窗口,窗口大小为当前快照时间;
四、根据分区编号执行Keyby算子,利用哈希函数分发到不同的节点,其中具有相同分区编号的对象被发送到相同的节点;
五、Map阶段:每个节点对接收到的当前分区的数据执行基于方向的密度聚类,并得到当前分区的密度聚类簇集合;
六、第一个Recude阶段:对Map阶段得到的密度聚类簇集合汇聚到主节点进行聚类合并,输出合并后簇的集合;
七、第二个Reduce阶段,对第一个Reduce合并后簇的集合执行模式挖掘,与候选伴随集合取交集,生成新的候选伴随,并输出当前快照的伴随模式结果;
步骤五中,密度聚类采用ADBSCAN算法,ADBSCAN算法是融合角度的密度聚类算法,具体为:
输入:包含n个数据的第i个快照的数据集Si,半径阈值r,角度阈值δa,邻域密度阈值δ0
输出:基于密度的聚类簇集合
算法中的距离度量采用欧式距离;其中序号2开始遍历数据集Si的所有点;序号3判断当前遍历到的对象是否已经被访问过,如果被访问过则跳过此对象访问下一个对象,如果未被访问过则标记为核心对象;序号4设置p为已访问,找出与点p距离不大于r,且角度差不大于δa的所有点集合N;序号5至序号21如果p的邻域范围内对象数满足δ0则遍历p的邻域集合N;序号7至序号14遍历判断如果N内的对象p'已经被访问,判断是否是噪声点,如果是噪声点说明p'不属于任何簇,将p'标记为非噪声点并聚类到当前簇;序号15至序号19如果p'未被访问,则查找p'的邻域集合N'并加入N中;序号22如果p的邻域内对象数量小于δ0则将p标记为噪声点;序号25最终返回聚类后的簇的集合
给定两个相邻快照s1,s2,(x1,y1)和(x2,y2)是对象o在快照s1,s2的坐标,轨迹向量与正北方向的夹角为
给定快照si两个轨迹点o1,o2,两个轨迹点的角度差可以根据夹角计算得到;
步骤六中,聚类合并采用MC算法,具体为:
输入:所有分区簇的集合
输出:合并簇后的集合
序号1和序号2,第一个指针停留在第i个簇,第二个指针j遍历i之后的簇;序号3判断后遍历到的簇是否存在第一个簇Region的相邻Region中,如果不存在继续查找下一个簇,如果存在则序号4至序号6若两个簇ci和cj有相同对象,则将cj中的所有对象添加到ci中,并从中移除cj;
步骤七中,模式挖掘采用PCPM算法,PCPM算法为并行的伴随模式挖掘算法,具体为:
输入:轨迹数据流S,对象数量阈值δs,时间周期阈值δt,候选簇集合R
输出:每一组满足条件的伴随集合r'
s表示轨迹流中的快照,序号1初始化新的候选伴随集合R',R'的初始值为空;序号2至序号16通过取交集来增加候选伴随,其中序号3创建多线程,加快取交集的速度,在下一个相交前检查其剩余大小,提前结束数量过少的候选伴随与簇的交叉过程;一旦候选伴随的规模小于数量阈值δs,就不再是合格的候选伴随,应该从内存中删除;序号9至序号10将交叉后满足阈值δs的结果存储在候选伴随模式集合中,在存储过程中为集合R'加锁,防止两个线程同时写入导致数据错误;序号11至序号13如果候选伴随模式集合满足时间阈值则被实时输出;序号18至20使用定义14检查是否有一个包含相同对象但持续周期较长的候选ri,如果没有则将cj添加到候选伴随集合中;
定义14:封闭候选:对于一个候选伴随ri,如果不存在任何候选rj,使得且ri的周期小于rj的周期,则ri是一个封闭候选。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921144.0/1.html,转载请声明来源钻瓜专利网。