[发明专利]一种基于数据挖掘的车辆停留行为模式预测与评估方法有效

申请号：	201611187064.2	申请日：	2016-12-20
公开（公告）号：	CN106649709B	公开（公告）日：	2020-02-07
发明（设计）人：	田大新;单雄宇;王云鹏;唐文忠;胡俊杰;杨越	申请（专利权）人：	北京航空航天大学
主分类号：	G06F16/29	分类号：	G06F16/29;G06F16/28
代理公司：	11121 北京永创新实专利事务所	代理人：	赵文颖
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于数据挖掘车辆停留行为模式预测评估方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于数据挖掘的车辆停留行为模式预测与评估方法，包括以下几个步骤：

步骤一，导入初始的GPS轨迹数据，进行数据预处理；

初始的GPS轨迹数据为车辆行驶一段时间的GPS轨迹数据，包括时间、车辆ID、经度、纬度、速度字段；对初始的GPS轨迹数据进行数据预处理，将数据存储入SQL数据库中；

步骤二，从SQL数据库之中提取数据预处理之后的GPS轨迹数据，进行停留点的提取；

提取GPS轨迹数据中的速度字段，设为x₁,x₂,x₃,……x_M，其中，x_n为某一车辆在某一时刻的速度数值，并且，x_n≥0，M为所有具有速度数值的有效记录的个数；

根据3-sigma原则，判断总体的速度数据是否符合正态分布，若符合正态分布，则根据区间判断速度是否为零，和分别为区间的下限和上限，表示均值，δ表示方差，在这一区间范围内的速度为零，不在这一区间范围内的速度不为零，

其中，定义为

其中，δ定义为

若不符合正态分布，则对数据进行正态化处理：

其中，x表示不符合正态分布的速度数据，y表示经过正态化处理后符合正态分布的速度数据，γ为幂指数；

针对x₁,x₂,x₃,……x_M，使以下公式达到其最大值的式中的参数γ的理论值作为参数γ的实际值：

其中，l(γ)表示目标函数值，y_i表示y中数据的单个值，表示y中数据的平均值，

最终，得到速度为零的数据记录；

如果某一辆ID为XXX的车辆，获得其一部分连续的行驶轨迹数据记录，时间记录为t1、t2……、tn，经度和纬度记录分别为lon1、lon2……、lonn和lat1、lat2……、latn，并且两点之间实际距离误差范围为s米以内，速度记录均为0，则将数据整理为一条数据记录，车辆的ID为XXX，数据记录的时间取为第一条数据条目的时间，记为t，经度和纬度分别取为数据中所有经度和纬度的平均值，记为lon ave和lat ave，速度取为0，持续时间取为上述数据中第一条数据条目和最后一条数据条目的时间之差，记为t last，车辆的ID还是为XXX；

通过从SQL数据库之中提取数据预处理之后的GPS轨迹数据，提取得到停留点，停留点的形式为一条数据条目，每一条数据条目包括时间、车辆ID、经度、纬度、速度、持续时间字段；

进行停留点分类：将提取出来的总体的停留点的数据，以持续时间的长短为横坐标，单位为分钟，以停留点的个数为纵坐标，单位为个数，将停留点划分为n种类型；

步骤三，对于每一种类型的停留点，分别对于以下四个统计指标，表示出其统计分布规律，

(1)停留时间，指的是某一次停留中停留行为的持续时间；

(2)停留频率，指的是某一段时间内停留行为的重复次数；

(3)两个停留点之间的距离，指的是某一车辆的两次停留位置之间的距离；

依据停留点的经度和纬度的信息来计算，两个停留点的经纬度坐标分别为(lon end,lat end)，(lon start,lat start)，两者还有一系列的点的坐标，设为(lon 1,lat 1)，(lon 2,lat 2)，……，逐个计算两点之间的距离，进行累加，得到两个停留点之间的距离；

计算公式如下所示，

C＝(sin(MlatA)*sin(MlatB)*cos(MlonA-MlonB)+cos(MlatA)*cos(MlatB)) (6)

Distance＝R*arccos(C)*π/180 (7)

其中，(lonA,latA)和(lonB,latB)为两点的经纬度坐标，东经取经度的正值(longitude)，西经取经度负值(-longitude)，北纬取90-纬度值(90-latitude)，南纬取90+纬度值(90+latitude)，进行以上处理的两点的经纬度坐标分别为(MlonA,MlatA),(MlonB,MlatB)，R为地球的平均半径，

(4)停留时刻，指的是某一车辆的某一次停留行为发生的时间；

对于根据某一车辆的停留点的数据和根据所有车辆的停留点的数据所获得的上述某一类型停留点的某一个统计指标的统计分布，确定是否为类似分布；

步骤四，对于每一种类型的停留点的四个统计指标的统计分布进一步的拟合，拟合过程根据最小二乘法按照线性回归的方式提取统计分布的回归函数；

步骤五，根据每一种类型的停留点的停留时间和停留频率的统计分布平均值，确定总体上的停留时间的平均水平，

对于类型M的停留点，对其所包含的停留点的数据统计如下；

表1类型M的停留点所包含的停留点的数据


序号	1	2	3	……	m
个数	num(1)	num(2)	num(3)	……	num(m)
停留时间	t1	t2	t3	……	tm

平均停留时间为

其中t_Mmean表示平均停留时间，num(i)表示停留时间为t_i的停留点个数，t_i表示停留时间，n_{frequentMmean}表示类型M的停留点的停留频率的平均值，

t_Mmean为类型M的停留点的停留时间的平均水平，根据数据t₁,t₂,t₃,…t_m中的最大值和最小值，来分别确定停留时间的最高水平和最低水平，分别设为t_Mmax，t_Mmin，

将(t_Mmin,t_Mmean,t_Mmax)之间进一步的划分对应的等级并且赋予对应的评分，如下，

表2类型M的停留点对应的等级和评分的划分


Mmin～t_M1]]>	M1～t_M2]]>	M2～t_M3]]>	M3～t_Mmean]]>	Mmean～t_M4]]>	M4～t_M5]]>	M5～t_M6]]>	M6～t_Mmax]]>
P1	P2	P3	P4	P5	P6	P7	P8

其中：t_M1、t_M2、t_M3、t_M4、t_M5、t_M6表示时间常数，用于划分t_Mmin,t_Mmean,t_Mmax之间的等级，P1、P2、P3、P4、P5、P6、P7、P8表示对应等级的评分，具体来说，等级指的是根据类型M的停留点的停留时间所进行的分类，t_Mmin～t_M1、t_M1～t_M2、t_M2～t_M3、t_M3～t_Mmean、t_Mmean～t_M4、t_M4～t_M5、t_M5～t_M6、t_M6～t_Mmax分别对应8个等级，评分指的是人为规定的对应于各个等级的分数，以用于进一步的评价，如P1、P2、P3、P4、P5、P6、P7、P8指的就是对应于8个等级的评分；

对于每一种类型的停留点统计停留时间和停留频率的统计分布平均值，如下所示，

表3任意类型的停留点对应的等级和评分的划分

其中，t₁₁、t₁₂、t₁₃、t₁₄、t₁₅、t₁₆和t₂₁、t₂₂、t₂₃、t₂₄、t₂₅、t₂₆和t_n1、t_n2、t_n3、t_n4、t_n5、t_n6表示时间常数，A1、A2、A3、A4、A5、A6、A7、A8和B1、B2、B3、B4、B5、B6、B7、B8和C1、C2、C3、C4、C5、C6、C7、C8表示对应等级的评分；

对于某一车辆在某一个时间区间之内正常行驶过程中的停留时间t，进行预测和评估的方法具体是，根据目标车辆预期的行驶路线过程中出现的停留点的类型和频率，对照表3显示的结果，计算出对应于不同等级情况下的车辆用于停留的时间，作为停留行为模式的预测；

进行评估的方法具体是，根据目标车辆实际的行驶路线过程中确实出现的停留点的类型、时间、频率，计算出车辆在不同类型的停留点停留的时间，对照表3显示的结果，给出相应的等级和评分，作为停留行为模式的评估，进一步调整其行驶的方案；

通过两个停留点之间的距离以及停留的时刻，确定是否有异常驾驶的行为。

2.根据权利要求1所述的一种基于数据挖掘的车辆停留行为模式预测与评估方法，所述的步骤一中，数据预处理具体为：

根据相应的字段的性质，去除不正确、不规范、或者存在缺失问题的数据，然后数据根据车辆ID分类，并且对于每一个车辆ID分类下的数据按照时间的顺序重新排列，如果其中时间不连续，则对时间字段进行补全，并且对于相应的条目中的经度、纬度、速度字段，根据车辆行驶的实际情况，进行理论的估计和补全，保证时间、经度、纬度、速度的前后连贯性。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航空航天大学，未经北京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201611187064.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于数据挖掘的车辆停留行为模式预测与评估方法有效

专利文献下载