[发明专利]分布式轨迹流伴随模式挖掘方法有效
申请号: | 202110921144.0 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113779105B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 张敬伟;张康威;杨青;陈亮;陈劲方 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/26;G06K9/62 |
代理公司: | 成都东恒知盛知识产权代理事务所(特殊普通合伙) 51304 | 代理人: | 何健雄 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 轨迹 伴随 模式 挖掘 方法 | ||
本发明涉及轨迹数据技术领域,涉及一种分布式轨迹流伴随模式挖掘方法,包括以下步骤:一、数据预处理:根据地理区域的划分将数据划分为多个区域,得到分区边界,输出分区编号;二、监测不断到达的数据流;三、当前快照创建时间窗口,窗口大小为当前快照时间;四、根据分区编号执行Keyby算子,利用哈希函数分发到不同的节点;五、每个节点对接收到的当前分区的数据执行基于方向的密度聚类,并得到当前分区的密度聚类簇集合;六、进行聚类合并,输出合并后簇的集合;七、执行模式挖掘,与候选伴随集合取交集,生成新的候选伴随,并输出当前快照的伴随模式结果。本算法具有更快的处理速度。
技术领域
本发明涉及轨迹数据技术领域,具体地说,涉及一种分布式轨迹流伴随模式挖掘方法。
背景技术
定位设备和位置跟踪技术的进步,产生了大量的轨迹数据,记录了各种应用中的人、车辆和动物的移动,如社交网络、交通管理、科学研究和军事侦察。
近年来,基于轨迹数据流的伴随模式挖掘技术不断产生,但现有系统仅适用于小规模数据集,在大规模轨迹数据流中表现不佳,主要原因及挑战如下:
(1)实时性:轨迹数据流具有无限增长,快速到达,实时更新特性,且难以将其存储,因此需要及时进行处理。这就要求轨迹流数据中的伴随模式挖掘算法满足时间上高效的要求,而传统算法并不能很好的满足以上要求。
(2)方向性:在真实的轨迹流伴随模式中,数据点移动方向多样。鉴于传统的DBSCAN对移动对象进行聚类,容易产生冗余数据信息。为了达到较好的聚类效果节省聚类时间,挖掘算法需要具有方向性,而现有的算法并未考虑方向因素。
(3)并行性:城市级别的轨迹数据实时到达,规模巨大,使得单台服务器和单线程的处理难以负载。因此,需要多台服务器对数据分块处理并增加算法的并行度,而现有的算法都是单节点单线程算法,无法应对大规模轨迹数据。
发明内容
本发明的内容是提供一种分布式轨迹流伴随模式挖掘方法,其能够克服现有技术的某种或某些缺陷。
根据本发明的一种分布式轨迹流伴随模式挖掘方法,其包括以下步骤:
一、数据预处理:根据地理区域的划分将数据划分为多个区域,得到分区边界,输出分区编号;
二、监测不断到达的数据流;
三、当前快照创建时间窗口,窗口大小为当前快照时间;
四、根据分区编号执行Keyby算子,利用哈希函数分发到不同的节点,其中具有相同分区编号的对象被发送到相同的节点;
五、Map阶段:每个节点对接收到的当前分区的数据执行基于方向的密度聚类,并得到当前分区的密度聚类簇集合;
六、第一个Recude阶段:对Map阶段得到的密度聚类簇集合汇聚到主节点进行聚类合并,输出合并后簇的集合;
七、第二个Reduce阶段,对第一个Reduce合并后簇的集合执行模式挖掘,与候选伴随集合取交集,生成新的候选伴随,并输出当前快照的伴随模式结果。
作为优选,步骤一中,分区过程如下所示:
(1)计算轨迹数据集的最大和最小经纬度,建立轨迹数据集的最小外接矩形Rectangle;
(2)对Rectangle均匀划分,使每个分区中包含相同数量的对象,并根据下式公式分别得到分区位置编号ni;
给定轨迹流快照si中轨迹的集合xi和yi表示对象oi在快照si的空间坐标,List为有序列表存储集合中所有对象的x轴坐标,则分区边界的位置
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921144.0/2.html,转载请声明来源钻瓜专利网。