[发明专利]一种基于人员行为规律和数据挖掘方法的群体识别方法有效
申请号: | 201710862301.9 | 申请日: | 2017-09-21 |
公开(公告)号: | CN107633067B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 丁治明;司云飞;才智;曹阳;迟远英 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/29;G06F40/30 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于人员行为规律和数据挖掘方法的群体识别方法,属于数据挖掘领域,尤其涉及一种基于人员行为规律的大型活动中重点群体识别的方法。利用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度,然后基于提取出的人员停留区域信息,进一步提取各区域语义信息以更准确表达用户行为,结合人员行为规律和特征相似度,利用数据挖掘方法进行群体聚类,最终从目标人群中识别出重点特殊群体。 | ||
搜索关键词: | 一种 基于 人员 行为 规律 数据 挖掘 方法 群体 识别 | ||
【主权项】:
一种基于人员行为规律和数据挖掘方法的群体识别方法,其特征在于:该方法的步骤为:步骤一:用人员的轨迹数据信息抽取其停留区域及人员去往各个停留区域的频繁度;步骤1.1:提取人员单条轨迹停留点;停留点表示人员停留一段时间的地理位置,通过从人员轨迹提取出的每一个停留点都和真实的地理位置相关联,这些地理位置能够在某种程度上反应人员的活动情况;定义单条轨迹为T=(p1,p2,…,pn),其中pi=(lati,loni,ti),0≤i≤n,(lati,loni)表示位置点i处的经纬度,ti表示处于位置点i处的时间;给定一段轨迹序列t=(pi,…,pi+m),如果distance(pi,px)≤θd,|ti‑tx|≥θt,i≤x≤i+m,px表示轨迹序列中的第x个轨迹点,m是一个0到n‑i之间的整数,θd和θt分别为地理距离阈值和时间阈值,则p(lat,lon)即为停留点,其中步骤1.2:人员在经常到访的区域停留点多,反之,在少到访的区域停留点少;DBSCAN算法应用在此处时间复杂度较高而且输入参数较多,因此设计一种简单聚类算法(SC),速度较快且只需要一个输入参数即距离阈值τ,通过遍历每个停留点,将每个停留点指派到和它距离小于τ的簇中,如果没有任何一个簇和此点的距离小于τ,则此点自己作为一个新簇;每个簇即为一个停留区域,记为为此停留区域中所有点,lat和lon为此停留区域点集的中心点,r为此停留区域的半径;步骤二:基于提取出的人员停留区域信息,并进一步提取各区域语义信息;步骤2.1:有时候仅通过地理位置信息并不能准确判断人员之间的关系,还需要停留区域的语义信息;POI(Point ofinformation)描述了这些地理实体的空间和属性信息,多数情况下人员停留区域语义信息并不单一,因此不能简单地将停留区域内的所有类别信息归结为一种,而是要记录多种类别及其占比,sem=(<catg1,freq1>,<catg2,freq2>,…,<catgn,freqn>),n≥1;sem表示停留区域中的语义信息,<catg1,freq1>表示第一种语义信息的类别和人员到访此语义对应地理位置的频度;采用LDA主题模型对停留区域内语义信息进行建模,将停留区域内的POI信息类比成文档,区域中的语义信息比成主题,每个POI作为单词;使用建模模型抽取出每个人员停留区域内的语义信息,首先将人员所有停留区域POI信息当作输入数据对模型进行训练,进而利用训练好的模型推测出每个停留区域内的语义信息;将抽取语义信息之后的停留区域重定义为为停留区域以r为半径的圆内的代表性语义信息;步骤2.2:去除无意义语义信息;A人员的语义信息集合为(<住宅区,150>,<咖啡厅,5>,<健身房,45>),B人员的语义信息集合为(<住宅区,200>,<科研机构,59>,<音乐厅,3>),圆括号内的两项表示语义位置信息和到访该位置的频度;“住宅区”这项在两者的语义信息集合中占有较大权重,“住宅区”在比较两者语义信息相似性上不具有实际意义甚至是一个干扰项,去掉干扰项后的A与B真实相似度很低;通常“住宅区”语义信息应该是人员们共同拥有的语义信息,每个人的轨迹语义信息都会包含该信息,该语义信息的明显特征就是到访频度高,停留时间段固定;去除无意义语义信息方法过程如下:1)循环判断每条语义信息,从区域语义信息上判断该区域是否可能是住宅区,若是,转2),否,转4);2)判断该停留区域内所有停留点平均停留时间分布是否正确,若是,转3),否,转4);3)从语义信息集合中删除该语义信息;4)跳出循环;步骤三:结合人员行为规律和特征相似度,利用数据挖掘方法进行群体聚类,最终从目标人群中识别出重点特殊群体;步骤3.1:相似性度量从两方面来考虑相似度的计算,地理位置相似度和语义位置相似度;第一方面,地理位置相似度;采用余弦相似度的扩展Tanimoto系数来比较两人相似度,不同于余弦相似度,它考虑了频度及向量长度的影响;给定人员A和人员B,两人地理位置频度向量分别为la和lb,表示为:tanimoto(A,B)=Σin=lai·lbiΣi=1nlai2+Σi=1nlbi2-Σi=1nlai·lbi---(1)]]>在判断两地理位置是否相同时,由于定位设备本身的误差,需要通过两个地理位置区域中停留点的重叠程度判断它们的位置关系;两个停留区域的重叠程度,或者说相似度定义为两区域相交区域内属于包含较少停留点的区域内的停留点数和包含较少停留点的区域内的所有停留点个数的比率;然后将该相似度作为权值加入到Tanimoto系数中形成新的加权地理位置相似性度量;公式如下:simloc(A,B)=Σi=1nlai·lbi·wiΣi=1nlai2+Σi=1nlbi2-Σi=1nlai·lbi·wi---(2)]]>第二方面,语义位置相似度;给定某个停留区域内的语义信息为sem=(<c1,f1>,<c2,f2>,...<cn,fn>),n≥1,fi代表ci的概率,所以有在比较两停留区域内的语义信息是否相同时,和判断地理位置是否相同类似,也要考虑两者的相似程度;sem中包含了语义信息的概率分布(f1,f2,…,fn),因此使用KL距离来衡量两者概率分布距离;在概率论和信息论中,KL距离(Kullback‑Leibler Divergence)用来衡量相同事件空间里的两个概率分布的差异情况;给定A人员和B人员的某个停留区域中的语义信息集合概率分布分别为fa(x)和fb(x),fa(x)和fb(x)之间KL距离表示为:DKL(fa||fb)=Σx∈Xfa(x)logfa(x)fb(x)---(3)]]>KL距离不具有对称性,即DKL(fa||fb)≠DKL(fb||fa),所以它并不是一个真正的度量或者距离;JS距离是KL距离的对称改进,并且将距离定义在[0,1]的闭区间上;公式如下:DJS(fa||fb)=12[DKL(fa||fa+fb2)+DKL(fb||fa+fb2)]---(4)]]>如果δ是两者语义信息的距离阈值,semA和semB分别是人员A和人员B的所有停留区域的语义信息集合,则两区域语义信息相似;两人语义位置相似度计算方式同地理位置相似度计算方式一样,采用Tanimoto系数,公式如下:simsem(A,B)=Σi=1nsai·sbi·wiΣi=1nsai2+Σi=1nsbi2-Σi=1nsai·sbi·wi---(5)]]>sa和sb分别为两人语义信息频度向量,w为上文提到的JS距离组成的向量;有了地理位置相似度和语义位置相似度,两人相似度定义两者的加权和,公式如下:sim(A,B)=∝·simloc(A,B)+(1‑∝)·simsem(A,B) (6)其中∝是一个处于[0,1]区间的值,它决定了语义信息的权重;步骤3.2:群体聚类采用一种基于共享最近邻的聚类,包含一个很重要的SNN相似度概念,SNN相似度表示两个对象的k近邻中公共项个数;正是由于SNN的特性,使得它擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇,尤其擅长发现强相关对象的紧致簇;在群体聚类中,分为三步进行聚类;第一步,根据人员特征信息数据和相似度量公式构造SNN邻近度矩阵,第二步利用邻近度矩阵构造SNN相似度图,第三步找出相似度图的所有连通分支,每个连通分支是一个簇,去掉只有一个点的簇,剩下的每个簇即为一个群体;通过设置合理最近邻个数k和SNN相似度阈值γ,有效地找出人群中有紧密关系的重点群体。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710862301.9/,转载请声明来源钻瓜专利网。