[发明专利]一种基于时空关联与大数据挖掘的交通舆情检测方法有效

申请号：	201910873997.4	申请日：	2019-09-16
公开（公告）号：	CN110674858B	公开（公告）日：	2023-06-09
发明（设计）人：	廖年冬;黄显申	申请（专利权）人：	长沙理工大学
主分类号：	G06F16/9537	分类号：	G06F16/9537;G06F16/2458;G06F16/35;G06F40/289;G06N3/0442;G06N3/0455;G06N3/08;G06F16/951;G06Q50/26
代理公司：	暂无信息	代理人：	暂无信息
地址：	410114 湖南省***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于时空关联数据挖掘交通舆情检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于时空关联与大数据挖掘的交通舆情检测方法，其特征在于，包括步骤：

S1：网络交通舆情数据爬取：针对长沙市的网络交通舆情数据进行实时爬取；

S2：网络交通舆情数据预处理：对爬取的网络交通舆情数据进行特征编码，文本分词，划分子数据集；

S3：基于聚类的地理区域分割：针对划分的每个数据子集分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类进而分割出多个地理区域，且相似度计算方式采用改进后的Tanimoto测度；

S4：基于时间和地理区域关联的交通拥堵状况评价模型：确定采样指标和抽样目标，进而在聚类后的每个新数据子集上做抽样和采样处理，通过层次分析法(AHP)计算各采样指标的权重系数，对抽样和采样后的数据进行最大最小标准化处理，将各指标权重系数与对应的各指标值进行加权求和，整合有关于交通拥堵状况的所有评价指标，即统一评价标准；

S5：基于LSTM和时间序列的地理区域交通拥堵状况预测模型：生成地理区域在每个时间区间内的基于统一评价标准的时间序列数据，并对时间序列数据进行一阶差分处理，滑动窗口处理，以便得到所述LSTM模型的训练集和测试集，在训练集上对所述的LSTM模型进行训练，然后在测试集上进行验证，预测地理区域在未来一定时间区间内可能出现的交通拥堵状况。

2.根据权利要求1所述的一种基于时空关联与大数据挖掘的交通舆情检测方法，其特征在于，实时爬取长沙市网络交通舆情数据。

3.根据权利要求1所述的一种基于时空关联与大数据挖掘的交通舆情检测方法，其特征在于，文本相似度计算方式为改进后的Tanimoto测度。

4.根据权利要求2所述的一种基于时空关联与大数据挖掘的交通舆情检测方法，其特征在于，对由S2所得数据子集S₁,S₂,...,S_t,...,S_d中的地理位置特征，分别采用基于文本相似度的近邻聚类与K-Means聚类相融合的算法进行聚类，步骤S3包括：

S301：初始化文本相似度阈值ε，从子数据集S_t中任选一个样本点X₁作为聚类中心Z₁，进而选择样本点X₂，并计算X₂与聚类中心Z₁之间的文本相似度Sim₂₁，如式(1)所示：

其中，在计算文本相似度之前，针对参与计算的分词后文本，采用词袋模型进行向量化处理，x,y即为向量化处理之后的样本点，x_i,y_i为x,y的特征分量，min(x_i,y_i)表示对特征分量x_i,y_i作取小操作，max(x_i,y_i)表示对特征分量x_i,y_i作取大操作；

若Sim₂₁＜ε，则定义一个新的聚类中心Z₂＝X₂，否则X₂∈以Z₁为聚类中心的聚类；

S302：假设已有聚类中心Z₁,Z₂，进而选择第三个样本点X₃，并通过公式(1)分别计算X₃与Z₁之间的相似度Sim₃₁，以及X₃与Z₂之间的相似度Sim₃₂；

其中，若Sim₃₁＜ε且Sim₃₂＜ε，则创建第三个聚类中心Z₃＝X₃，否则，若Sim₃₁＝＜Sim₃₂，则X₃∈以Z₂为聚类中心的聚类，否则X₃∈以Z₁为聚类中心的聚类；

S303：依次迭代S302，直到子数据集S_t中的所有样本都已聚类完毕，则完成所述的近邻聚类；

S304：由S301-S303步骤将子数据集S_t分类为k为所聚类别的数目，表示数据子集t的第i个类别，即第i个簇，各类别对应的聚类中心分别为同样的，k表示聚类中心的个数，其中，为簇的聚类中心；

S305：计算每个簇的均值向量如公式(2)所示，并选择与均值向量相似度最大的样本作为当前簇的聚类中心参与下一次迭代；

其中，在计算簇内均值向量之前，针对参与计算的分词后文本，采用词袋模型进行向量化处理，X即为向量化处理之后的样本，同时，X∈簇中的一个样本，表示类别中样本的数量；

S306：设为当前的聚类中心，j表示迭代次数，为所述聚类算法调整的参与下一次迭代的聚类中心；

将当前迭代下的聚类中心与通过计算均值向量所得的参与下一次迭代的聚类中心进行比较，则存在以下两种情况：

若则跳回S302，并以新的聚类中心作为S302所述的已有聚类中心；

若则聚类中心收敛，完成聚类；

S307：针对每个子数据集S_t，依次按照步骤S301-S306进行聚类，直到每个子数据集都完成聚类为止；由聚类后的子数据集组成新的网络交通舆情数据集S^c，其数据子集可分别表示为然后将新数据子集中的标记为是的唯一簇标记，而在上却并不一定具有唯一性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于长沙理工大学，未经长沙理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910873997.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于多尺度堆叠网络的广告点击分类方法
下一篇：基于汉字笔画的汉语短文本相似度检测方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于时空关联与大数据挖掘的交通舆情检测方法有效

专利文献下载