[发明专利]一种基于时空关联与大数据挖掘的交通舆情检测方法有效
申请号: | 201910873997.4 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110674858B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 廖年冬;黄显申 | 申请(专利权)人: | 长沙理工大学 |
主分类号: | G06F16/9537 | 分类号: | G06F16/9537;G06F16/2458;G06F16/35;G06F40/289;G06N3/0442;G06N3/0455;G06N3/08;G06F16/951;G06Q50/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410114 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 关联 数据 挖掘 交通 舆情 检测 方法 | ||
1.一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,包括步骤:
S1:网络交通舆情数据爬取:针对长沙市的网络交通舆情数据进行实时爬取;
S2:网络交通舆情数据预处理:对爬取的网络交通舆情数据进行特征编码,文本分词,划分子数据集;
S3:基于聚类的地理区域分割:针对划分的每个数据子集分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类进而分割出多个地理区域,且相似度计算方式采用改进后的Tanimoto测度;
S4:基于时间和地理区域关联的交通拥堵状况评价模型:确定采样指标和抽样目标,进而在聚类后的每个新数据子集上做抽样和采样处理,通过层次分析法(AHP)计算各采样指标的权重系数,对抽样和采样后的数据进行最大最小标准化处理,将各指标权重系数与对应的各指标值进行加权求和,整合有关于交通拥堵状况的所有评价指标,即统一评价标准;
S5:基于LSTM和时间序列的地理区域交通拥堵状况预测模型:生成地理区域在每个时间区间内的基于统一评价标准的时间序列数据,并对时间序列数据进行一阶差分处理,滑动窗口处理,以便得到所述LSTM模型的训练集和测试集,在训练集上对所述的LSTM模型进行训练,然后在测试集上进行验证,预测地理区域在未来一定时间区间内可能出现的交通拥堵状况。
2.根据权利要求1所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,实时爬取长沙市网络交通舆情数据。
3.根据权利要求1所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,文本相似度计算方式为改进后的Tanimoto测度。
4.根据权利要求2所述的一种基于时空关联与大数据挖掘的交通舆情检测方法,其特征在于,对由S2所得数据子集S1,S2,...,St,...,Sd中的地理位置特征,分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类,步骤S3包括:
S301:初始化文本相似度阈值ε,从子数据集St中任选一个样本点X1作为聚类中心Z1,进而选择样本点X2,并计算X2与聚类中心Z1之间的文本相似度Sim21,如式(1)所示:
其中,在计算文本相似度之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,x,y即为向量化处理之后的样本点,xi,yi为x,y的特征分量,min(xi,yi)表示对特征分量xi,yi作取小操作,max(xi,yi)表示对特征分量xi,yi作取大操作;
若Sim21<ε,则定义一个新的聚类中心Z2=X2,否则X2∈以Z1为聚类中心的聚类;
S302:假设已有聚类中心Z1,Z2,进而选择第三个样本点X3,并通过公式(1)分别计算X3与Z1之间的相似度Sim31,以及X3与Z2之间的相似度Sim32;
其中,若Sim31<ε且Sim32<ε,则创建第三个聚类中心Z3=X3,否则,若Sim31=<Sim32,则X3∈以Z2为聚类中心的聚类,否则X3∈以Z1为聚类中心的聚类;
S303:依次迭代S302,直到子数据集St中的所有样本都已聚类完毕,则完成所述的近邻聚类;
S304:由S301-S303步骤将子数据集St分类为k为所聚类别的数目,表示数据子集t的第i个类别,即第i个簇,各类别对应的聚类中心分别为同样的,k表示聚类中心的个数,其中,为簇的聚类中心;
S305:计算每个簇的均值向量如公式(2)所示,并选择与均值向量相似度最大的样本作为当前簇的聚类中心参与下一次迭代;
其中,在计算簇内均值向量之前,针对参与计算的分词后文本,采用词袋模型进行向量化处理,X即为向量化处理之后的样本,同时,X∈簇中的一个样本,表示类别中样本的数量;
S306:设为当前的聚类中心,j表示迭代次数,为所述聚类算法调整的参与下一次迭代的聚类中心;
将当前迭代下的聚类中心与通过计算均值向量所得的参与下一次迭代的聚类中心进行比较,则存在以下两种情况:
若则跳回S302,并以新的聚类中心作为S302所述的已有聚类中心;
若则聚类中心收敛,完成聚类;
S307:针对每个子数据集St,依次按照步骤S301-S306进行聚类,直到每个子数据集都完成聚类为止;由聚类后的子数据集组成新的网络交通舆情数据集Sc,其数据子集可分别表示为然后将新数据子集中的标记为是的唯一簇标记,而在上却并不一定具有唯一性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙理工大学,未经长沙理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910873997.4/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置