[发明专利]一种基于doc2vec的地铁站点功能挖掘方法在审

专利信息
申请号: 201710822006.0 申请日: 2017-09-13
公开(公告)号: CN107704524A 公开(公告)日: 2018-02-16
发明(设计)人: 孔祥杰;夏锋;王进忠;付振寰;李昱霖 申请(专利权)人: 大连理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 大连理工大学专利中心21200 代理人: 温福雪,侯明远
地址: 116024 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 doc2vec 地铁 站点 功能 挖掘 方法
【说明书】:

技术领域

发明属于机器学习领域,特别涉及基于doc2vec算法及Affinity Propagation算法的聚类研究方法,涉及一种基于doc2vec的地铁站点功能挖掘方法。

背景技术

地铁站点已经是现代化城市重要和不可或缺的部分,它极大地丰富和方便了人们的出行。在一个多元化的城市中,存在着越来越多不同的功能区域,比如商业区、教育区、生活区。而地铁站的建设其目的就是极大限度地连接着这些功能区域。人们每天频繁往返于地铁站点间去参加不同的社交活动,比如工作、购物、上学等等。地铁站的功能发现对城市的建设有着很重要的意义。最初的地铁线路规划通常是以人口流动现状为依据,而后地铁站又进一步改变了人口流动和分布,并促进了各种新的功能区域的形成。

随着机器学习算法的不断发展,研究者们可以处理越来越多复杂的数据和信息,比如现如今扮演重要角色的文本信息挖掘分析和处理,在以前的研究中,最常用的机器学习的聚类算法就是K-means及其衍生算法,但这类机器学习算法都需要实验者输入固定长度的向量集合,doc2vec算法的提出就是为了解决固定向量输入所造成的问题。doc2vec的输入向量可以是不定长的文本,例如可以是一个句子,一个段落等等。这些不定长的文本将组成向量作为输入,用于预测段落中的一个赋有代表性的词。显然doc2vec不同于其他的文本挖掘算法,它不需要像以前的算法为每个词加上权重来表示重要性,也不依赖于语义树的建立。在某些领域,doc2vec的实验效果要比传统的分类挖掘算法的效果好很多。

Affinity Propagation聚类所得到的相似度可以是对称的也可以是不对称的。比如根据n个数据点之间的相似度进行聚类,即两个数据点之间的相似度一样,比如欧氏距离。这些相似度组成n*n的相似度矩阵。AP聚类算法不同于经典的K-means聚类算法,其不需要事先指定聚类数目,相反,它通过不断的循环遍历多有的数据点,将每个数据点都看作是潜在的聚类中心,以n*n矩阵的对角线上的数值(x,x)作为x点能否成为聚类中心的评判标准,也就是说,如果这个值越大,则这个点成为聚类中心的可能性也越大,AP聚类中将这个值称为参考度P(preference)。聚类数量受到参考度p的影响,一般来说,p的绝对值越大,则聚类数量越少。

发明内容

本发明的目的是基于目前较新的文本相似度挖掘算法doc2vec对地铁站点数据集进行相似度挖掘,之后使用相对较为稳定的Affinity Propagation聚类算法进行聚类以挖掘地铁站点功能。

本发明的技术方案:

一种基于doc2vec的地铁站点功能挖掘方法,步骤如下:

(1)收集地铁站往返客流数据与POI数据;

(2)对步骤(1)收集到的数据进行预处理

a)提取站点唯一名称、每条客流信息往返站点名称及时间、地铁站点经纬信息;

b)合并重复站点名称的往返客流量;

c)将步骤b)整理后的数据按照工作日和节假日两种形式分别存储;

d)再将每日的数据按照客流量划分出几个客流量高峰段分别存储;

(3)进一步处理步骤(2)所得数据集,得到doc2vec算法输入数据

a)将M个工作日数据划分为一类、N个节假日数据划分为另一类,简化输入数据;

b)将数据集中的站点名称用矩阵下标的形式代替,将W个独立站点分别编号,用于作为矩阵下标的依据;

c)针对地铁站点总数量n,构造n*n矩阵Pi,并将步骤(2)所得数据集表示在矩阵Pi中,其中下标i代表工作日与节假日的总和;某日的某时刻有m个乘客从a站点到达b站点,那么表示在矩阵Pi中就是Pi(a,b)=m;

d)将工作日的K个时刻点的矩阵分别以列交叉的形式合并,节假日的矩阵采取同样操作;即合并后的矩阵的第一列为第一个矩阵的第一列,第二列为第二个矩阵的第一列,以简化迭代次数和增大doc2vec算法效果;

e)将数据以平均数形式表示,以简化运算量;

f)将地铁站点的POI数据集也加入到矩阵后,作为整体向量输入,以综合考量地理环境因素;

g)将数据分为整体数据、7点到9点早高峰数据、11点到13点中午高峰数据和17点到19点晚高峰四个部分;

(4)基于doc2vec算法进行地铁站相似度挖掘

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710822006.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top