[发明专利]一种基于doc2vec的地铁站点功能挖掘方法在审
申请号: | 201710822006.0 | 申请日: | 2017-09-13 |
公开(公告)号: | CN107704524A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 孔祥杰;夏锋;王进忠;付振寰;李昱霖 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 温福雪,侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 地铁 站点 功能 挖掘 方法 | ||
1.一种基于doc2vec的地铁站点功能挖掘方法,其特征在于,步骤如下:
(1)收集地铁站往返客流数据与POI数据;
(2)对步骤(1)收集到的数据进行预处理
a)提取站点唯一名称、每条客流信息往返站点名称及时间、地铁站点经纬信息;
b)合并重复站点名称的往返客流量;
c)将步骤b)整理后的数据按照工作日和节假日两种形式分别存储;
d)再将每日的数据按照客流量划分出几个客流量高峰段分别存储;
(3)进一步处理步骤(2)所得数据集,得到doc2vec算法输入数据
a)将M个工作日数据划分为一类、N个节假日数据划分为另一类,简化输入数据;
b)将数据集中的站点名称用矩阵下标的形式代替,将W个独立站点分别编号,用于作为矩阵下标的依据;
c)针对地铁站点总数量n,构造n*n矩阵Pi,并将步骤(2)所得数据集表示在矩阵Pi中,其中下标i代表工作日与节假日的总和;某日的某时刻有m个乘客从a站点到达b站点,那么表示在矩阵Pi中就是Pi(a,b)=m;
d)将工作日的K个时刻点的矩阵分别以列交叉的形式合并,节假日的矩阵采取同样操作;即合并后的矩阵的第一列为第一个矩阵的第一列,第二列为第二个矩阵的第一列,以简化迭代次数和增大doc2vec算法效果;
e)将数据以平均数形式表示,以简化运算量;
f)将地铁站点的POI数据集也加入到矩阵后,作为整体向量输入,以综合考量地理环境因素;
g)将数据分为整体数据、7点到9点早高峰数据、11点到13点中午高峰数据和17点到19点晚高峰四个部分;
(4)基于doc2vec算法进行地铁站相似度挖掘
调用doc2vec算法中的most_similar(n)方法计算站点间的相似度,其中n代表站点数目;分别计算不同条件下站点间相似度结果矩阵,具体包括:
a)未加入POI数据集时,节假日与工作日不同站点间的相似度;
b)加入POI数据集以后,节假日与工作日不同站点间的相似度;
c)早中晚高峰时段加入POI数据集以后,不同站点间的相似度;
(5)基于步骤(4)所得结果进行Affinity Propagation聚类并挖掘站点功能
a)根据步骤(4)所得的相似度分析结果,确定聚类数量,其中相似度高的站点归为一类;
b)将地铁站客流数据生成的相似度矩阵和加入地铁站POI数据集以后生成的相似度矩阵分别进行AP聚类;
c)将数据集按照早中晚不同高峰时段分别进行聚类对比;
d)综合考虑上述对比实验结果,挖掘并总结出不同地铁站点的功能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710822006.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:数据多维显示控制方法、装置和系统
- 下一篇:视频搜索方法和装置