[发明专利]一种基于上下文的无监督关系数据异常检测方法在审
申请号: | 201711379664.3 | 申请日: | 2017-12-13 |
公开(公告)号: | CN108038211A | 公开(公告)日: | 2018-05-15 |
发明(设计)人: | 孟凡;葛笑天;王皓;陈烜松;高阳 | 申请(专利权)人: | 南京大学;江苏省审计厅 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 苏州威世朋知识产权代理事务所(普通合伙) 32235 | 代理人: | 杨林洁 |
地址: | 210009 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 上下文 监督 关系 数据 异常 检测 方法 | ||
本发明公开了一种基于上下文的无监督关系数据异常检测方法,包括以下步骤:将多源关系型数据表进行融合和预处理;计算属性值的Intra依赖值;计算属性值的Inter依赖值;根据Intra属性依赖和Inter属性依赖,计算属性依赖关系图结构;用启发式递归反向淘汰算法计算上下文属性集;用改进的离散属性距离学习算法计算基于上下文属性相似度矩阵;根据参考样本选择器选择参考样本候选集并进一步计算参考样本;计算基于上下文关系数据异常因子序列;计算关系数据异常候选集,并确定异常数据。本发明能够在缺乏先验领域知识的指导下,自动的挖掘和利用关系型数据属性之间的潜在结构和关系,从而进一步进行无监督异常检测。
技术领域
本发明涉及一种无监督关系数据异常检测方法,具体是一种基于上下文的针 对关系型数据进行无监督异常检测的方法。
背景技术
无监督异常检测方法广泛应用于不同的实际应用场景,例如政务数据异常检 测、审计、商业欺诈检测、医疗记录异常分析等领域。与基于监督学习的异常检 测方法相比,无监督异常检测方法能够在弱领域知识或先验指导不足的情况下, 通过数据驱动(Data-driven)的方式,自发的从指定数据集中进行学习,从而进一 步利用学得的知识进行后续的异常数据检测。
现阶段的无监督异常检测方法主要可分为基于距离、基于聚类、基于概率模 型和基于信息熵等算法,其主要是通过对样本之间的距离或相似度度量,作为主 要的异常因子,从而进一步产生对原始样本的异常程度度量。由于在实际应用中 样本和属性之间并非简单的独立同分布结构,而是存在着潜在的依赖和相关关 系,因此充分有效的挖掘出潜在的属性关系(上下文结构)将有助于进一步提高 异常检测的精度。
发明内容
发明目的:本发明的目的是针对现有技术的不足,提供一种基于上下文结构 的无监督异常检测方法。
技术方案:本发明通过处理不同的关系型输入样本、通过采用非独立同分布 的属性依赖检测方法,对给定数据集中的属性结构和依赖关系进行挖据,通过集 成多个不同的无监督学习子模块,最终形成一种新颖的基于上下文的无监督关系 数据异常检测方法。该方法包括以下步骤:
(1)将多源关系型数据表进行融合和预处理;
(2)根据所得到的关系型属性计算属性值的Intra依赖值;
(3)根据所得到的关系型属性计算属性值的Inter依赖值;
(4)根据步骤(2)和(3)计算所得的Intra依赖值和Inter依赖值,计算 属性依赖关系结构;
(5)用一种启发式递归反向淘汰算法RBE(Recursive Backward Elimination) 计算上下文属性集,即该算法通过顺序检索策略,迭代去除冗余属性,从而计算 出近似最佳属性子集;
(6)用改进的离散属性距离学习算法DILCA(DIstance Learning forCategorical Attributes),联合上下文属性值和行为属性值,计算基于上下文属性 的相似度矩阵,即该算法主要是利用上下文属性和行为属性的条件概率计算两个 属性值之间的相似度和距离;
(7)根据参考样本选择器选择参考样本候选集,主要包含两种算法:随机 k样本选择算法和中心k样本选择算法;
(8)根据选择的参考样本候选集进一步计算最终参考样本;
(9)根据所计算得到的基于上下文属性的相似度矩阵和参考样本,计算基 于上下文关系的数据异常因子序列;
(10)计算关系数据异常候选集,并确定异常数据。
有益效果:本发明与现有技术相比,其显著优点是:提出一种新颖的方法, 该方法能够在缺乏先验领域知识的指导下,自动的挖掘和利用关系型数据属性之 间的潜在结构和关系,从而进一步进行无监督异常检测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;江苏省审计厅,未经南京大学;江苏省审计厅许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711379664.3/2.html,转载请声明来源钻瓜专利网。