[发明专利]一种基于轨迹相似度的目标对象关系识别方法和系统在审
申请号: | 201611198489.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN108228670A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 唐凌;李纪超;胡懋地 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标对象 行序列 向量 字典 轨迹相似度 关系识别 语料库 拼接 标识符 二元组 去重 | ||
本发明涉及一种基于轨迹相似度的目标对象关系识别方法和系统,所述方法包括:将同一时间出现在同一地点的目标对象的标识符拼接成一个行序列,并将若干个事件拼接成的M个行序列作为语料库,将语料库去重后构成字典,然后把事件中的每个目标对象作为字典中的词w,将与该目标对象同属于同一个行序列的目标对象作为w的上下文,记为Context(w),用二元组{w,Context(w)}构成一个具有n个元素的行序列;对字典中选取的词w所对应的向量v(w)进行训练;以及计算所选取的词w对应的向量v(w)与字典中其他词对应的向量之间的夹角,则与所选取的词w对应的向量v(w)夹角最小的词对应的目标对象是与所选取的词w对应的目标对象关系最密切的目标对象。
技术领域
本发明涉及数据挖掘领域,并且更具体地,涉及一种基于轨迹相似度的目标对象关系识别方法和系统。
背景技术
目前,对于目标对象关系的识别,主要是通过对自然语言句子构造语义关系树来提取目标对象之间的关系,这种方法依赖于用自然语言描述的语料,但对于一些目标对象,比如犯罪分子,很难找到这样的语料用于识别他们的社会关系。
人们在乘坐飞机火车、住旅店时都留下了记录,假如有几个人经常在同一时间出现在同一地点,则他们在轨迹上的相似度很高,可以认为他们之间的关系会比较密切。本发明所述方法的目标就是根据目标对象的行为轨迹来识别其关系,特别是识别一些不易发现的社会关系,比如犯罪团伙,这些关系可为公共安全部门维护社会治安、捉拿犯罪同伙提供重要的依据。
发明内容
为了解决背景技术存在的上述问题,本发明提供一种基于轨迹相似度的目标对象关系识别方法,所述方法包括:
取时间段T内的若干个事件作为样本数据,在样本数据中将同一时间出现在同一地点的目标对象的标识符拼接成一个行序列,并将若干个事件拼接成的M个行序列作为语料库,将语料库去重后构成字典,然后把事件中的每个目标对象作为字典中的词w,将与该目标对象同属于同一个行序列的目标对象作为w的上下文,记为Context(w),用二元组{w,Context(w)}构成一个具有n个元素的行序列;
采用连续词袋模型神经网络对字典中选取的词w所对应的向量v(w)进行训练;以及
计算所选取的词w对应的向量v(w)与字典中其他词对应的向量之间的夹角,则与所选取的词w对应的向量v(w)夹角最小的词对应的目标对象是与所选取的词w对应的目标对象关系最密切的目标对象。
进一步地,所述方法采用连续词袋模型神经网络对字典中选取的词w所对应的向量v(w)进行训练时包括:
将包含Context(w)中的n-1个词的词向量作为神经网络的输入层,其中,m表示词向量的长度;
将输入层的n-1个向量求和累加作为投影层,计算公式如下:
以语料中出现过的词当叶子节点,以各词在语料中出现的次数当权值构造出来的哈夫曼树作为输出层,在所述输出层中计算向量v(w)包括:
计算神经网络的目标函数,公式如下:
其中,pw表示从哈夫曼树的根节点出发到达w对应叶子节点的路径,lw表示路径pw中包含节点的个数,表示路径pw中的lw个结点,表示根节点,表示词w对应的结点,表示词w的哈夫曼编码,它由lw-1位编码构成,表示路径pw中第j个结点对应的编码,表示路径pw中非叶子结点对应的向量,表示路径pw中第j个非叶子结点对应的向量;
采用随机梯度下降法对目标函数进行优化,的更新公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611198489.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种缓存处理方法及装置
- 下一篇:具数据锁定及解锁功能的数据储存系统及其方法