[发明专利]一种稀疏数据异常检测方法及装置有效
| 申请号: | 201710508648.3 | 申请日: | 2017-06-28 |
| 公开(公告)号: | CN107391443B | 公开(公告)日: | 2020-12-25 |
| 发明(设计)人: | 马帅;朱孟笑;张晖;怀进鹏 | 申请(专利权)人: | 北京航空航天大学 |
| 主分类号: | G06F17/16 | 分类号: | G06F17/16;G06F40/30;G06K9/62 |
| 代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
| 地址: | 100191*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 稀疏 数据 异常 检测 方法 装置 | ||
本发明公开了一种稀疏数据异常检测方法及装置,所述方法包括:对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;根据所述非线性流形模型,计算数据对象的异常值得分;根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
技术领域
本发明涉及异常检测技术领域,尤其涉及一种基于因子分解机的稀疏数据异常检测方法及装置。
背景技术
异常检测主要基于Kawkins对异常的定义:异常是远离其他观测数据进而怀疑为不同机制产生的数据。高效准确地检测异常对于入侵检测、欺诈检测以及故障检测等领域具有重要意义。异常检测已经得到了广泛地研究,大多数方法都是针对传统的非稀疏性的数据。但是实际场景中,很多数据都呈现稀疏特性:(1)短文本数据:近年来,随着社交媒体的发展,短文本数据的分析挖掘得到越来越多的重视,由于单个文本中的单词数量有限,推断文本的异常特性变得极具挑战。(2)拥有“大域”属性的分类型数据:此类数据中每个属性包含的不同值数量巨大,可通过二值化过程转换成极度稀疏的数据,因此该类数据是一种间接的稀疏数据。不同属性值数量巨大,数据集中的属性值出现次数有限,难以形成可用的模式,因此如何挖掘属性值之间隐含的关系对推断数据对象的异常特性具有重要意义。例如,电影信息包含三个属性:男演员、女演员以及电影类型。如果男演员A和女演员B经常演同一类型的电影,虽然A和B从未合作过,但后来一次A和B的合作不应该看作是异常,因为A和B之间存在某种隐含的关系。因此有效地分析数据中隐含的关系是解决稀疏数据异常检测的关键。此外,此类稀疏数据往往伴随着高维特性,少量的数据对象即可形成较大的数据集,因此如何高效地寻找数据集中的异常,降低方法的时间复杂度对处理大规模数据具有重要意义。最后,由于现实中数据集往往包含多种数据类型,例如分类型数据、数值型数据、文本型数据等,因此如何同时处理多种类型的数据,提高方法的通用性是亟待解决的问题。
目前的异常检测方法具有如下几种:基于距离的异常检测方法、基于模式的异常检测方法、基于概率生成模型的异常检测方法、基于矩阵分解的异常检测方法等。
当前的异常检测方法处理稀疏数据存在一些问题,这主要体现在三个方面。第一,稀疏数据中大部分值都是0,单个数据对象中只有有限非0元,单纯使用有限的非0元推断数据对象的异常特性极具挑战,需要结合属性值之间的隐含关系。传统的很多方法如基于距离的方法、基于模式的方法等都无法获取属性值之间的隐含关系。第二,现实中的数据集往往包含多种数据类型,例如分类型数据、数值型数据、文本数据等,而现有的方法一般只针对某一种数据进行异常检测,不具有通用性。第三,传统的很多异常检测方法(如基于距离的方法)的时间复杂度过高,无法适用于大规模数据。
发明内容
为解决上述技术问题,本发明实施例提供了一种稀疏数据异常检测方法及装置。
本发明实施例提供的稀疏数据异常检测方法,包括:
对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据;
采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型;
根据所述非线性流形模型,计算数据对象的异常值得分;
根据所述数据对象的异常值得分,判定所述数据对象是否为异常数据。
本发明实施例中,所述对不同类型的原始数据进行特征处理,以将所述不同类型的原始数据转换成统一格式的稀疏数据,包括:
分别对分类型数据、短文本数据以及数值型数据进行不同的特征处理,得到n行d列的数据集其中
本发明实施例中,所述采用因子分解机对所述稀疏数据进行建模,得到非线性流形模型,包括:
采用因子分解机对所述数据集进行建模,使所述数据集位于非线性流形上,得到的非线性流形模型为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710508648.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





