[发明专利]一种复杂行为序列数据的特征学习方法在审
| 申请号: | 201710816615.5 | 申请日: | 2017-09-12 |
| 公开(公告)号: | CN107609589A | 公开(公告)日: | 2018-01-19 |
| 发明(设计)人: | 熊贇;张尧;朱扬勇 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
| 代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明属于大数据技术领域,具体为一种复杂行为序列数据的特征学习方法。本发明核心是定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此,假设一个事件发生的概率大小取决于其字段之间是否相容,首先将复杂行为事件中每一个字段都通过嵌入转换为欧式空间中的多维向量表示,对字段的向量两两进行内积运算,作为其相容程度的度量,然后进行加权求和,进一步通过指数运算与归一化,作为单个事件的概率。本发明方法通过分析复杂行为序列数据集,以无监督的方式自动生成指定实体的特征向量,得到较低维度的特征向量,作为后续机器学习、数据挖掘任务的特征,无需专家手工设计特征。 | ||
| 搜索关键词: | 一种 复杂 行为 序列 数据 特征 学习方法 | ||
【主权项】:
复杂行为序列数据特征学习方法,是基于人工神经网络学习模型的,其特征在于,具体步骤为:(1)复杂行为序列数据预处理:从应用系统中收集复杂行为序列数据,假设每条行为事件event有K个字段:其中,Ak为第k个字段可能的取值构成的集合,其大小为mk=|Ak|;通过对各个字段的每个取值重新编号,建立一一映射:fk:Ak→{1,2,…,mk}, (1)即对都有唯一的正整数与之对应,这样便将事件重新表示为event=(a1,a2,…,aK);(2)初始化人工神经网络:神经网络结构包含输入层、隐藏层、输出层;输入为事件,首先经过隐藏层嵌入得到各个字段的嵌入向量,然后向量两两计算内积再加权求和,最后经过标准化输出该事件的概率;训练人工神经网络通常需要迭代求解,为此对模型参数随机赋值作为初始值;该网络主要有两组参数需要求解:每个字段Ak的mk×d维的嵌入矩阵及字段间的K维对称权重矩阵W∈SK;嵌入矩阵E(k)的第i行即为字段集合Ak的第i个取值的d维特征向量,其中d为要学习的特征向量的维数,为模型超参,由用户指定;嵌入矩阵的初始值取均匀分布权重矩阵的初始值取正态分布Wij~N(0,0.01);(3)迭代优化参数:通过随机梯度下降算法,对网络参数进行优化;具体流程为:(3.0)首先定义单个行为事件的概率表达式:对于一个事件event=(a1,a2,…,aK),首先经过神经网络的嵌入层,得到各个字段的d维特征向量(e1,e2,…,eK),其中ek为嵌入矩阵E(k)的第ak行;对于第i和第j个字段,计算其对应向量的内积作为字段间的相容度:sij=eiTej,---(2)]]>然后对两两字段间相容度加权求和,得到该事件的分数,权重由权重矩阵给出:s(event)=∑1≤i<j≤Kwij·sij, (3)进一步计算该事件的概率:P(event)=exp(s(event))Σevent′∈Ωexp(s(event′)),---(4)]]>其中,Ω为所有可能的事件构成的集合,即样本空间;(3.1)从数据集中抽取若干条数据作为一个批次:batch={event1,…,eventl},输入到神经网络中,利用步骤(3.0)中公式,计算该批次上的负对数似然,即损失函数值Lbatch=‑∑event∈batchlog P(event), (5)(3.2)对K个嵌入矩阵E(1),E(1),…,E(K)及权重矩阵W分别计算Lbatch上的梯度,得到ΔE(1),ΔE(2),…ΔE(K)与ΔW;(3.3)对嵌入矩阵及权重矩阵按负梯度方向进行更新:E(k):=E(k)‑α·ΔE(k),W:=W‑α·ΔW, (6)其中α>0为学习速率,为模型超参,由用户指定;(3.4)重复步骤(3.1)~(3.3),直至参数收敛或达到最大迭代次数;(4)取出特征向量:如步骤(2)中所述,抽取指定实体的嵌入矩阵即为对应字段的特征向量矩阵,矩阵的第i行即为该字段第i个取值的特征向量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710816615.5/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





