[发明专利]一种基于doc2vec的地铁站点功能挖掘方法在审
申请号: | 201710822006.0 | 申请日: | 2017-09-13 |
公开(公告)号: | CN107704524A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 孔祥杰;夏锋;王进忠;付振寰;李昱霖 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 温福雪,侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于doc2vec的地铁站点功能挖掘方法,属于数据挖掘技术领域。1)数据收集与预处理本发明综合考虑了地铁站点客流数据、地铁站点POI数据等多种信息来源,以保证分析结果的权威性和普适性;2)数据集合并合并重复名称站点的往返客流量;3)地铁站相似度计算基于doc2vec算法进行地铁站相似度挖掘;4)站点功能聚类本发明采用了数据挖掘领域先进的Affinity Propagation算法,既保证了计算效率又保证了分类结果的准确性;5)站点功能挖掘根据算法聚类分析结果进行地铁站功能分类。以上海地铁为例进行的聚类实验表明,使用本发明可以高效、准确的完成地铁站点聚类工作。 | ||
搜索关键词: | 一种 基于 doc2vec 地铁 站点 功能 挖掘 方法 | ||
【主权项】:
一种基于doc2vec的地铁站点功能挖掘方法,其特征在于,步骤如下:(1)收集地铁站往返客流数据与POI数据;(2)对步骤(1)收集到的数据进行预处理a)提取站点唯一名称、每条客流信息往返站点名称及时间、地铁站点经纬信息;b)合并重复站点名称的往返客流量;c)将步骤b)整理后的数据按照工作日和节假日两种形式分别存储;d)再将每日的数据按照客流量划分出几个客流量高峰段分别存储;(3)进一步处理步骤(2)所得数据集,得到doc2vec算法输入数据a)将M个工作日数据划分为一类、N个节假日数据划分为另一类,简化输入数据;b)将数据集中的站点名称用矩阵下标的形式代替,将W个独立站点分别编号,用于作为矩阵下标的依据;c)针对地铁站点总数量n,构造n*n矩阵Pi,并将步骤(2)所得数据集表示在矩阵Pi中,其中下标i代表工作日与节假日的总和;某日的某时刻有m个乘客从a站点到达b站点,那么表示在矩阵Pi中就是Pi(a,b)=m;d)将工作日的K个时刻点的矩阵分别以列交叉的形式合并,节假日的矩阵采取同样操作;即合并后的矩阵的第一列为第一个矩阵的第一列,第二列为第二个矩阵的第一列,以简化迭代次数和增大doc2vec算法效果;e)将数据以平均数形式表示,以简化运算量;f)将地铁站点的POI数据集也加入到矩阵后,作为整体向量输入,以综合考量地理环境因素;g)将数据分为整体数据、7点到9点早高峰数据、11点到13点中午高峰数据和17点到19点晚高峰四个部分;(4)基于doc2vec算法进行地铁站相似度挖掘调用doc2vec算法中的most_similar(n)方法计算站点间的相似度,其中n代表站点数目;分别计算不同条件下站点间相似度结果矩阵,具体包括:a)未加入POI数据集时,节假日与工作日不同站点间的相似度;b)加入POI数据集以后,节假日与工作日不同站点间的相似度;c)早中晚高峰时段加入POI数据集以后,不同站点间的相似度;(5)基于步骤(4)所得结果进行Affinity Propagation聚类并挖掘站点功能a)根据步骤(4)所得的相似度分析结果,确定聚类数量,其中相似度高的站点归为一类;b)将地铁站客流数据生成的相似度矩阵和加入地铁站POI数据集以后生成的相似度矩阵分别进行AP聚类;c)将数据集按照早中晚不同高峰时段分别进行聚类对比;d)综合考虑上述对比实验结果,挖掘并总结出不同地铁站点的功能。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710822006.0/,转载请声明来源钻瓜专利网。
- 上一篇:数据多维显示控制方法、装置和系统
- 下一篇:视频搜索方法和装置