[发明专利]一种复杂行为序列数据的特征学习方法在审
| 申请号: | 201710816615.5 | 申请日: | 2017-09-12 |
| 公开(公告)号: | CN107609589A | 公开(公告)日: | 2018-01-19 |
| 发明(设计)人: | 熊贇;张尧;朱扬勇 | 申请(专利权)人: | 复旦大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
| 代理公司: | 上海正旦专利代理有限公司31200 | 代理人: | 陆飞,陆尤 |
| 地址: | 200433 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 复杂 行为 序列 数据 特征 学习方法 | ||
技术领域
本发明属于大数据技术领域,具体涉及复杂行为序列数据的特征学习方法。
背景技术
许多现实应用中都会产生大量的行为事件,随着信息化的普及,许多行为事件已经被存储在计算机中。每一次行为事件都涉及到多种属性,这些事件一起构成了复杂行为序列数据。例如,在证券市场中,每一笔交易行为都是一次行为事件,其包含有多个属性,如投资人、股票、金额、数量、买或卖等,所有的交易行为构成了复杂行为序列数据;在计算机进程监控系统中,每一次进程间通信都是一次行为事件,其可能的属性有源进程名、目标进程名、源端口号、目标端口号、访问位置等,所有的进程间通信构成了复杂行为序列数据。表1为复杂行为序列数据示例。
通过对这些复杂行为序列数据的挖掘分析,能发现有意义的模式,指导实际应用场景的决策,例如:分析用户、投资人之间是否相似,某进程是否为异常进程等。这些分析任务都需要利用实体的特征。传统的方法通常需要借助领域知识,由专家选择特征、相似性函数等。
本发明针对复杂行为序列数据,提出一种基于神经网络的特征学习方法。首先,收集数据将其处理为事件序列格式(一个事件序列的字段可以根据用户需求被指定为实体与属性两种,例如,进程监控系统中,进程间通信这一行为事件涉及的字段有:用户名、端口、ip地址、时间和登陆时长等,其中,用户名、端口、ip地址通常可被指定为实体;时间和时长作为属性);然后,建立神经网络,利用神经网络来描述单一事件的概率;再通过对数据集进行极大似然估计,求解神经网络参数;最后,针对指定实体,从神经网络中抽取对应参数,作为特征向量,提供给后续的数据挖掘任务。该方法与以往方法相比,无须人工设计特征。
发明内容
本发明的目的在于提供一种高效率的基于人工神经网络的复杂行为序列数据特征学习方法。
本发明提供的基于人工神经网络的复杂行为序列数据特征学习方法,是通过分析数据间的内在联系,学习出复杂行为序列数据中指定实体的特征向量,优点在于不需要领域专家去手工设计特征。
本发明首先提供一种基于人工神经网络的复杂行为序列数据特征学习模型。本发明的核心是如何定义一个行为事件的概率表达式以便通过对观测到的数据集进行极大似然估计来求解。为此,假设一个事件发生的概率大小取决于其字段之间是否相容,具体来说,我们首先将复杂行为事件中每一个字段都通过嵌入(Embedding)转换为欧式空间中的多维向量表示,对字段的向量两两进行内积运算,作为其相容程度的度量,然后进行加权求和,进一步通过指数运算与归一化,作为单个事件的概率。
本发明提供的复杂行为序列数据特征学习方法,是基于人工神经网络学习模型的,具体步骤为:
(1)复杂行为序列数据预处理:从应用系统中收集复杂行为序列数据,假设每条行为事件event有K个字段:其中,Ak为第k个字段可能的取值构成的集合,其大小为mk=|Ak|。通过对各个字段的每个取值重新编号,建立一一映射:
fk:Ak→{1,2,…,mk},(1)
即对都有唯一的正整数与之对应,这样便可以将事件重新表示为event=(a1,a2,…,aK)。如果有字段为连续型,可以划分为若干区间,对数据进行离散化,再进行重新编号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710816615.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





