[发明专利]估算用户到物理事件距离的方法有效
申请号: | 201610569794.2 | 申请日: | 2016-07-19 |
公开(公告)号: | CN106202488B | 公开(公告)日: | 2019-04-19 |
发明(设计)人: | 於志文;弋飞;郭斌;王柱;周兴社 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06Q50/00 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种估算用户到物理事件距离的方法,用于解决现有预测用户到物理事件距离的方法实用性差的技术问题。技术方案是将用户与事件相关联,基于事件发生的位置,通过比较事件与用户在物理、信息和社会三个特征空间的相似性,并结合已知位置信息的用户数据,构建高斯过程回归模型,对位置信息未知的用户到事件的距离进行估算。能够在物理、信息和社会三个维度,解释用户的移动特性,并通过将用户与事件进行关联,发掘用户更深层的行为规律与模式,在公众安全与社会治安管理等应用场景中具有很强的现实意义。 | ||
搜索关键词: | 估算 用户 物理 事件 距离 方法 | ||
【主权项】:
1.一种估算用户到物理事件距离的方法,其特征在于包括以下步骤:步骤一、根据事件的主题关键词在社交网络中筛选用户,并提取与事件相关的用户数据;假设事件的关键词为EW,发生的时间段为ETP,则所有在时间ETP内提及关键词EW的用户将会被筛选为与事件相关的用户;针对这些用户,使用网络爬虫工具获取其历史数据,构建用户个体的数据模型,表示为公式(1)RU=<L,C,F>(1)其中,L表示该用户的历史签到数据,C表示用户历史上发布的状态信息,F表示用户在社交网络中的好友信息;步骤二、根据事件发生时的位置信息、参与者信息以及事件的主题内容,构建事件的特征表示模型;针对事件在物理、信息和社会空间三个方面的特征,结合事件发生时的地理位置信息,参与者信息以及事件主题,构建事件的特征表达模型,其表示为公式(2)EF=<CM,ET,EA>(2)其中,CM表示事件在物理空间的特征,其通过提取所有事件参与者的历史移动轨迹,组建群体移动特征用于表示事件的物理空间属性,是所有参与事件的用户历史上到事件位置距离的概率分布函数;假设每个参与者的历史签到序列为PLS,当前事件的位置为EL,pdi表示任意一个PLSi到EL的距离,则计算出的所有pdi表示某一个参与者到事件位置的距离分布,那么,所有参与者的pdi构成的集合就是参与者群体到事件位置的距离分布,即为群组移动特征CM,是一种关于距离的概率分布函数;ET表示事件在信息空间的特征,其通过提取事件的话题与主题词得到;每名参与者在事件发生时期都会发布有关事件话题的状态,通过提取所有参与者发布的文本内容,并提取关键词,构成关键词特征向量,每个维度表示一类关键词,最终构成事件在信息空间的特征ET;EA表示事件在社会空间的特征,其通过提取参与事件的用户信息以及他们的社交关系得到;步骤三、基于步骤一中与事件相关的用户数据,提取用户个体在物理、信息和社会空间的特征表示模型;用户个体在物理、信息和社会三个空间的特征表达模型通过步骤一中建立的用户数据模型导出,其表示为公式(3)UF=<IM,HC,RF>(3)其中,IM通过用户数据中的历史签到地点与当前事件地点距离度量,表示的是用户到事件距离的概率分布函数;假设用户的历史签到地点序列为LS,当前事件的位置为EL,di表示地点序列中任意LSi到EL的距离,那么,计算得到的所有di的概率分布情况则为IM,即一种关于距离的概率分布函数;HC通过提取用户在社交媒体上的历史文本得到,表示的是用户历史上经常提及的文本信息;通过对历史文本信息关键词的提取,构建关键词特征向量,每个维度表示一类关键词信息,即可对比事件的话题关键词特征,计算二者的相似性;RF通过提取用户每条文本信息中与好友的交互信息得到,表示的是用户近期经常沟通的社交好友信息;步骤四、针对步骤二、步骤三中构建的事件与用户个体特征表示模型,定义用户与事件在物理、信息和社会三个特征空间的相似性,基于此构建用户与事件的关联度;针对步骤二、步骤三分别构建的事件与用户个体特征模型,定义这两个特征表达模型在物理、信息和社交空间的相似性,进而衡量用户与事件之间的关联度;针对用户u以及事件e,其物理空间相似性表示为公式(4)
其中,IM(d)表示用户个体历史轨迹中相对事件位置距离的概率分布函数,CM(d)表示事件参与者群体相对于事件位置距离的概率分布函数,分别对应公式(3)、公式(2)中的IM与CM;该测量值M(u,e)越小,表明指定用户在物理空间特征上与对应事件相关性越高;其次,二者信息空间相似性表示为公式(5)
其中,C(u)与C(e)分别指代用户u和事件e在信息空间的特征,即公式(3)和公式(2)中的用户历史文本信息HC以及事件发生时的主题ET,该公式计算两者的余弦相似度,值越大,表明指定用户在信息空间特征上与对应事件相关性越高;其中,由于用户发布的历史文本具有时间先后顺序,越靠近当前事件发生的时间段,其内容更能表现用户当前的文本兴趣偏好,故在构建用户关键词特征向量C(u)的时候考虑到了时间因素,其表达如公式(6)和公式(7)C(u)=<w1,w2,......,wn>(6)
其中,wi表示某一维的关键词权重,其通过公式(7)计算得到;其中,wi,j表示第i维关键词在tj时刻出现的次数,Te表示事件发生时的时刻,通过计算,最终得到每一维关键词的权重大小,越靠近事件发生时发布的文本关键词,其权重越高;再次,在社会空间中,用户u与事件e的相似性表示为公式(8)
其中,S(u)与S(e)分别指代用户u和事件e在社会空间的特征,即公式(3)和公式(2)中的用户近期经常交互的好友信息RF以及事件发生时的参与者信息EA,该测量值S(u,e)越大,说明指定用户的好友参与对应事件所占人数比例越大,即该用户在社会空间特征上与对应事件相关性越高;最终,用户与社会事件的关联度表示为公式(9)Correlation(u,e)=M(u,e)‑1+C(u,e)+S(u,e)(9)其中,M(u,e),C(u,e)和S(u,e)分别为上述的用户与事件在物理、信息和社会特征空间的相似性;由于M(u,e)的值越小,表明用户与事件相关性越高,故对M(u,e)取倒数,使得在构建用户与事件关联度的过程中,最终结果Correlation(u,e)值越大,表明用户与事件的关联度越高;步骤五、基于用户与事件的关联度,结合已知位置信息的用户数据,训练高斯过程回归模型,估算位置信息未知的用户到事件的距离;通过融合用户与社会事件在物理、信息和社会空间的相似性,即合并公式(4)、公式(5)和公式(6)的计算结果,并结合已知位置信息的用户数据建立高斯过程回归模型GPR,以用户与事件的关联度Correlation(u,e)为输入,以用户到事件地点的距离为输出,训练高斯过程回归模型;并通过模型,基于用户与事件的关联度,估算位置信息未知的用户与事件的距离;模型计算公式如(10)Distance(uestimate,e)=GPRTrained(Correlation(uestimate,e))(10)其中,GPRTrained表示使用已知位置信息的用户以及对应的用户事件关联度训练出的高斯过程回归模型,Correlation(uestimate,e)表示需要估算的用户,其与事件的关联度,Distance(uestimate,e)表示要估算的用户到事件距离值的大小。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610569794.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种日志信息的处理方法
- 下一篇:一种感知数据的评价方法和系统