[发明专利]一种基于轨迹相似度的目标对象关系识别方法和系统在审
申请号: | 201611198489.3 | 申请日: | 2016-12-22 |
公开(公告)号: | CN108228670A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 唐凌;李纪超;胡懋地 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐 |
地址: | 100195 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标对象 行序列 向量 字典 轨迹相似度 关系识别 语料库 拼接 标识符 二元组 去重 | ||
1.一种基于轨迹相似度的目标对象关系识别方法,其特征在于,所述方法包括:
取时间段T内的若干个事件作为样本数据,在样本数据中将同一时间出现在同一地点的目标对象的标识符拼接成一个行序列,并将若干个事件拼接成的M个行序列作为语料库,将语料库去重后构成字典,然后把事件中的每个目标对象作为字典中的词w,将与该目标对象同属于同一个行序列的目标对象作为w的上下文,记为Context(w),用二元组{w,Context(w)}构成一个具有n个元素的行序列;
采用连续词袋模型神经网络对字典中选取的词w所对应的向量v(w)进行训练;以及
计算所选取的词w对应的向量v(w)与字典中其他词对应的向量之间的夹角,则与所选取的词w对应的向量v(w)夹角最小的词对应的目标对象是与所选取的词w对应的目标对象关系最密切的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述方法采用连续词袋模型神经网络对字典中选取的词w所对应的向量v(w)进行训练时包括:
将包含Context(w)中的n-1个词的词向量作为神经网络的输入层,其中,m表示词向量的长度;
将输入层的n-1个向量求和累加作为投影层,计算公式如下:
以语料中出现过的词当叶子节点,以各词在语料中出现的次数当权值构造出来的哈夫曼树作为输出层,在所述输出层中计算向量v(w)包括:
计算神经网络的目标函数,公式如下:
其中,pw表示从哈夫曼树的根节点出发到达w对应叶子节点的路径,lw表示路径pw中包含节点的个数,表示路径pw中的lw个结点,表示根节点,表示词w对应的结点,表示词w的哈夫曼编码,它由lw-1位编码构成,表示路径pw中第j个结点对应的编码,表示路径pw中非叶子结点对应的向量,表示路径pw中第j个非叶子结点对应的向量;
采用随机梯度下降法对目标函数进行优化,的更新公式为:
其中,η表示学习率;
计算向量v(w),计算公式如下:
3.根据权利要求2所述的方法,其特征在于,所述方法求取两个词对应的向量夹角,其计算公式如下:
其中,v(wi)和v(wj)分别表示两个词对应的向量,夹角α表示两个词对应的向量之间的夹角。
4.根据权利要求1所述的方法,其特征在于,所述目标对象是人。
5.根据权利要求4所述的方法,其特征在于,所述词w用每个人的身份证表示。
6.一种基于轨迹相似度的目标对象关系识别系统,其特征在于,所述系统包括:
样本库构建单元,其用于取时间段T内的若干个事件作为样本数据,在样本数据中将同一时间出现在同一地点的目标对象拼接成行序列,并将若干个事件拼接成的M个行序列作为语料库,将语料库去重后构成字典,然后把事件中的每个目标对象作为字典中的词w,将与该目标对象同属于同一个行序列的目标对象作为w的上下文,记为Context(w),用二元组{w,Context(w)}构成一个具有n个元素的行序列;
向量训练单元,其用于采用连续词袋模型神经网络对字典中选取的词w对应的向量v(w)进行训练;以及
目标对象关系识别单元,其用于计算选取的词w对应的向量v(w)与字典中其他词对应的向量之间的夹角,其中,与所选取的词w对应的向量v(w)夹角最小的词对应的目标对象是与所选取的词w对应的目标对象关系最密切的目标对象。
7.根据权利要求6所述的系统,其特征在于,所述目标对象是人。
8.根据权利要求7所述的系统,其特征在于,在所述样本库构建单元中,字典中的词w用每个人的身份证表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611198489.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种缓存处理方法及装置
- 下一篇:具数据锁定及解锁功能的数据储存系统及其方法