[发明专利]一种基于MapReduce的大规模公交乘客OD并行计算方法有效
申请号: | 201710998166.0 | 申请日: | 2017-10-18 |
公开(公告)号: | CN107818412B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 邬群勇;苏克云;邹智杰 | 申请(专利权)人: | 福州大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/30;G06F16/2458;G06F16/27 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350116 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 mapreduce 大规模 公交 乘客 od 并行 计算方法 | ||
本发明涉及一种基于MapReduce的大规模公交乘客OD并行计算方法。该方法:首先,对原始公交数据预处理,并将处理后数据存储;而后,运用连续性公交出行链方法得到上车记录集合Sa和具有完整OD点的集合Sb;对集合Sa的上车站点数据根据乘客工作日和非工作日的出行特征以及历史出行站点频次来推算公交乘客出行下车站点;最后,依次对每个IC卡用户的出行OD记录按照刷卡时间顺序归并,完成大规模公交乘客OD并行计算的过程。本发明运用Hadoop的MapReduce并行计算框架和HBase数据库在出行链方法基础上结合乘客历史相似出行行为规律来并行计算大规模公交乘客OD点,不仅提高了大规模公交乘客OD点的计算效率,同时也提高了推算公交乘客OD点的准确率,具有较高的实用价值。
技术领域
本发明涉及一种基于MapReduce的大规模公交乘客OD并行计算方法。
背景技术
随着定位技术的成熟,位置传感器硬件得到广泛普及,城市中客运车辆都装备有车载定位系统,公交车实时的位置信息以及其他状态信息能够被轻易获得。由传感器采集得到的数据具有时效性强、范围广、数据量大等特点,通过数据挖掘技术手段我们能够从中计算出有价值的信息。
Hadoop是目前在大数据领域中比较成熟,应用最为广泛的分布式计算平台,主要由分布式文件存储系统HDFS和分布式计算框架MapReduce组成,在处理海量数据时具有高可靠性、高扩展性、高效性和高容错性。HBase是一个构建在HDFS上的分布式面向列的数据库,可以存储海量数据,基于行键有较高的查询效率。
公交车辆轨迹数据和IC卡刷卡数据中蕴藏着城市客流、城市居民出行规律、城市居民的乘车需求等有用的信息。现有根据公交车辆轨迹数据和公交IC卡刷卡数据推算公交乘客OD(Origin-Destination)点的方法包括:基于概率论的站点吸引度法、基于居民出行规律的出行链方法。这些方法大都基于传统的关系型数据库计算,在数据量较小,如几条线路或是较小量用户出行模式分析的情况下具有较好的效果。然而随着公交数据量与日俱增,传统关系型数据存储系统在存储计算大规模的数据时已经捉襟见时,用传统的推算公交乘客OD点的方法已不能满足当下快速推算大规模公交乘客OD点的需求。
发明内容
本发明的目的在于提供一种基于MapReduce的大规模公交乘客OD并行计算方法,该方法运用Hadoop的MapReduce并行计算框架和HBase数据库在出行链方法基础上结合乘客历史相似出行行为规律来并行计算大规模公交乘客OD点,不仅提高了大规模公交乘客OD点的计算效率,同时也提高了推算公交乘客OD点的准确率,具有较高的实用价值。
为实现上述目的,本发明的技术方案是:一种基于MapReduce的大规模公交乘客OD并行计算方法,包括如下步骤,
步骤S1:对原始公交数据包括IC卡数据、公交车辆GPS数据、公交车辆信息数据以及公交线路站点数据进行预处理;
步骤S2:将预处理过IC卡数据、公交车辆GPS数据存储到HBase数据库;将公交车辆信息数据和公交线路站点数据存储到HDFS;
步骤S3:根据MapReduce的特点,在Map函数中依次读取每条IC卡记录,获取其相关信息,根据车辆编号及其刷卡时间等信息获取到相应车辆进出站数据,再结合公交线路站点数据计算出该IC卡持有者乘坐公交出行的上车站点,即O点;
步骤S4:在Reduce函数中对能够计算得到O点的IC卡记录,以IC卡号为单位进行归并,以键值对的形式输出到HDFS;
步骤S5:在步骤S4的基础上,在新的Map函数中,依次读取每个用户已计算出O点的所有IC卡记录,将该些用户按照连续出行链方法推算得到出行D点的刷卡记录添加到集合Sb,而未能推算出D点刷卡记录添加到集合Sa;其中,出行D点即乘客公交出行的下车站点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710998166.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理