[发明专利]一种基于doc2vec的地铁站点功能挖掘方法在审
申请号: | 201710822006.0 | 申请日: | 2017-09-13 |
公开(公告)号: | CN107704524A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 孔祥杰;夏锋;王进忠;付振寰;李昱霖 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 大连理工大学专利中心21200 | 代理人: | 温福雪,侯明远 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 doc2vec 地铁 站点 功能 挖掘 方法 | ||
技术领域
本发明属于机器学习领域,特别涉及基于doc2vec算法及Affinity Propagation算法的聚类研究方法,涉及一种基于doc2vec的地铁站点功能挖掘方法。
背景技术
地铁站点已经是现代化城市重要和不可或缺的部分,它极大地丰富和方便了人们的出行。在一个多元化的城市中,存在着越来越多不同的功能区域,比如商业区、教育区、生活区。而地铁站的建设其目的就是极大限度地连接着这些功能区域。人们每天频繁往返于地铁站点间去参加不同的社交活动,比如工作、购物、上学等等。地铁站的功能发现对城市的建设有着很重要的意义。最初的地铁线路规划通常是以人口流动现状为依据,而后地铁站又进一步改变了人口流动和分布,并促进了各种新的功能区域的形成。
随着机器学习算法的不断发展,研究者们可以处理越来越多复杂的数据和信息,比如现如今扮演重要角色的文本信息挖掘分析和处理,在以前的研究中,最常用的机器学习的聚类算法就是K-means及其衍生算法,但这类机器学习算法都需要实验者输入固定长度的向量集合,doc2vec算法的提出就是为了解决固定向量输入所造成的问题。doc2vec的输入向量可以是不定长的文本,例如可以是一个句子,一个段落等等。这些不定长的文本将组成向量作为输入,用于预测段落中的一个赋有代表性的词。显然doc2vec不同于其他的文本挖掘算法,它不需要像以前的算法为每个词加上权重来表示重要性,也不依赖于语义树的建立。在某些领域,doc2vec的实验效果要比传统的分类挖掘算法的效果好很多。
Affinity Propagation聚类所得到的相似度可以是对称的也可以是不对称的。比如根据n个数据点之间的相似度进行聚类,即两个数据点之间的相似度一样,比如欧氏距离。这些相似度组成n*n的相似度矩阵。AP聚类算法不同于经典的K-means聚类算法,其不需要事先指定聚类数目,相反,它通过不断的循环遍历多有的数据点,将每个数据点都看作是潜在的聚类中心,以n*n矩阵的对角线上的数值(x,x)作为x点能否成为聚类中心的评判标准,也就是说,如果这个值越大,则这个点成为聚类中心的可能性也越大,AP聚类中将这个值称为参考度P(preference)。聚类数量受到参考度p的影响,一般来说,p的绝对值越大,则聚类数量越少。
发明内容
本发明的目的是基于目前较新的文本相似度挖掘算法doc2vec对地铁站点数据集进行相似度挖掘,之后使用相对较为稳定的Affinity Propagation聚类算法进行聚类以挖掘地铁站点功能。
本发明的技术方案:
一种基于doc2vec的地铁站点功能挖掘方法,步骤如下:
(1)收集地铁站往返客流数据与POI数据;
(2)对步骤(1)收集到的数据进行预处理
a)提取站点唯一名称、每条客流信息往返站点名称及时间、地铁站点经纬信息;
b)合并重复站点名称的往返客流量;
c)将步骤b)整理后的数据按照工作日和节假日两种形式分别存储;
d)再将每日的数据按照客流量划分出几个客流量高峰段分别存储;
(3)进一步处理步骤(2)所得数据集,得到doc2vec算法输入数据
a)将M个工作日数据划分为一类、N个节假日数据划分为另一类,简化输入数据;
b)将数据集中的站点名称用矩阵下标的形式代替,将W个独立站点分别编号,用于作为矩阵下标的依据;
c)针对地铁站点总数量n,构造n*n矩阵Pi,并将步骤(2)所得数据集表示在矩阵Pi中,其中下标i代表工作日与节假日的总和;某日的某时刻有m个乘客从a站点到达b站点,那么表示在矩阵Pi中就是Pi(a,b)=m;
d)将工作日的K个时刻点的矩阵分别以列交叉的形式合并,节假日的矩阵采取同样操作;即合并后的矩阵的第一列为第一个矩阵的第一列,第二列为第二个矩阵的第一列,以简化迭代次数和增大doc2vec算法效果;
e)将数据以平均数形式表示,以简化运算量;
f)将地铁站点的POI数据集也加入到矩阵后,作为整体向量输入,以综合考量地理环境因素;
g)将数据分为整体数据、7点到9点早高峰数据、11点到13点中午高峰数据和17点到19点晚高峰四个部分;
(4)基于doc2vec算法进行地铁站相似度挖掘
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710822006.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据多维显示控制方法、装置和系统
- 下一篇:视频搜索方法和装置