[发明专利]一种基于LDA模型的地铁站点功能挖掘方法有效
申请号: | 201710817833.0 | 申请日: | 2017-09-13 |
公开(公告)号: | CN107656987B | 公开(公告)日: | 2020-07-14 |
发明(设计)人: | 孔祥杰;夏锋;付振寰;郭昊尘;王进忠 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q50/26;G06K9/62 |
代理公司: | 大连理工大学专利中心 21200 | 代理人: | 温福雪;侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据挖掘技术领域,一种基于LDA模型的地铁站点功能挖掘方法,步骤如下:1)数据收集:包括地铁刷卡数据、地铁POI数据等。经过筛选提取预处理以后,得到实验所需的潜在主题分布向量,以保证分析结果的普适性;2)语义挖掘:应用LDA主题模型,以乘客出行模式分布矩阵和POI相对含量矩阵为输入挖掘动静语义;3)站点聚类:在功能挖掘方面,本发明使用先进的聚类算法获得按功能的站点聚类簇;4)站点分类标识:本发明从类间客流转移、地理功能占比分布、簇间相似度3个角度提出站点功能标识方法,使得分析结果权威可靠。以上海地铁为例进行的地铁站点功能挖掘实验表明,本方法对于处理类似问题具有出色表现。 | ||
搜索关键词: | 一种 基于 lda 模型 地铁 站点 功能 挖掘 方法 | ||
【主权项】:
一种基于LDA模型的地铁站点功能挖掘方法,其特征在于,步骤如下:(1)收集地铁客流数据作为乘客出行模式矩阵,收集地铁POI数据作为POI相对含量矩阵;(2)以乘客出行模式矩阵和POI相对含量矩阵为输入,应用LDA主题模型挖掘站点静动语义;(3)移动语义挖掘与位置语义挖掘a)将所有站点的出行模式的频率通过一个形为m*n的矩阵Msp来表示,其中m为站点的总数目,n为所有可能出现的出行模式的总数目;b)将站点出行模式矩阵Msp作为LDA的输入,得到一个m*k的站点功能矩阵,其中,k为潜在功能的数目,k设为20;c)建立一个m*t的站点POI矩阵MSPOI,其中m为站点的数目,t为POI类别标签数目;d)对矩阵MSPOI的每一列进行min‑max标准化,以将每个POI类别的数值映射到0至1之间,具体公式如下:MSPOI*.mi,j*=MSPOI.mi,j-min(MSPOI[,j])max(MSPOI[,j])-min(MSPOI[,j])]]>其中,min(MSPOI[,j])表示矩阵第j列的最小值,max(MSPOI[,j])表示第j列的最大值;i=1,2,3,…,m;j=1,2,3,…,t;(4)联合步骤(3)所得移动语义及位置语义,提取每个站点的功能特征向量,得到站点功能矩阵Fa)将移动语义与位置语义作为站点两大特征,得到一个m×2k的矩阵MSF,其中m为站点的总数目,k为潜在功能的数目;b)对MSF按列进行Z‑Score标准化处理,计算方法如下:MSF*.mi,j*=MSF.mi,j-μjσj]]>其中μj为MSF第j列的期望,σj为MSF第j列的方差;c)使用稀疏主成份分析方法SPCA提取每个站点的功能特征向量,得到站点功能矩阵F;(5)使用优化的K均值算法对站点的功能特征向量进行聚类a)使用轮廓系数s来评估聚类性能,轮廓系数s通过以下两个指标来计算:指标a:一个样本点和同一聚类中所有其他样本点的平均距离,反映了簇内凝聚度;指标b:一个样本点和离其最近的聚类中所有样本点的平均距离,反映了簇间分离度;对于一个样本的轮廓系数计算公式为:s=b-amax(a,b)]]>b)使用KMeans++的聚类中心选取方法来代替原始K均值算法随机选取初始聚类中心的方式,步骤如下:A.从样本集中随机选取一个点作为第一个聚类中心;B.重复以下步骤,直至生成k个聚类中心:①计算样本集中每个样本点xi和与之最近的已有聚类中心之间的距离di;②选取一个新的聚类中心,选择时每个点xi被选中的概率与di成正比;c)以这k个点为初始聚类中心执行K均值算法;对站点功能矩阵F聚类,得到M个聚类中心向量μi,每个簇都是具有某种相同功能站点的集合;(6)从多个角度分析站点功能标识,确定站点功能a)类间客流转移:分析类间不同时段的出入客流量特征以进行类型标注;在时间段t内由聚类ci中站点到达聚类cj中站点的平均客流量为这段时间内由聚类ci到达聚类cj的客流量总数除以两个聚类包含站点数的积;b)地理功能占比分布:统计一个站点类别内平均每个站点所含有的POI数目占全市总数目的百分比,以分析出每个类别的功能;第i种POI标签点在站点分类j的地理功能占比其中ni为所有i类POIs的数目,nj为j类站点的数目,ni,j为j类站点所在地区内所有i类POIs的数目;c)簇间相似度:根据已经获得的M个聚类中心向量μi,计算簇间余弦相似度矩阵MS,MS是一个M×M的方阵,其中每个元素MS.mi,j的具体计算方法如下:MS.mi,j=cos<μi,μj>在进行站点功能标识时,簇间相似度越大的两个簇承担的功能就越相似。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710817833.0/,转载请声明来源钻瓜专利网。
- 上一篇:双膜净水系统及净水机
- 下一篇:文档编辑方法及系统