[发明专利]基于深度学习和极值理论的数据异常判断方法及系统在审

专利信息
申请号: 202011060903.0 申请日: 2020-09-30
公开(公告)号: CN112163624A 公开(公告)日: 2021-01-01
发明(设计)人: 金耀辉;何浩;黄宗源;李龙元 申请(专利权)人: 上海交通大学
主分类号: G06K9/62 分类号: G06K9/62;G06N3/04;G06N3/08
代理公司: 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 代理人: 张宁展
地址: 200240 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 深度 学习 极值 理论 数据 异常 判断 方法 系统
【说明书】:

发明提供一种基于深度学习和极值理论的数据异常判断方法及系统,根据当前数据集中的数据样本,构建异常评分模型,并对异常评分模型进行迭代优化,使得异常评分模型趋近优化目标;通过异常评分模型获取数据样本的异常分数值;根据获取的数据样本的异常分数值中的极端值,估计极值分布公式参数,使用阈值计算公式计算异常分数阈值;利用异常评分模型获取当前数据集中的待判断数据的异常分数,将待判断数据的异常分数与异常分数阈值进行比较,标定异常数据。本发明端到端对异常分数优化有利于充分利用数据和表征学习能力;同时能根据实际数据集来判断异常分数阈值,有效避免人工判断阈值的复杂性和主观性,提高方法迁移能力和异常识别能力。

技术领域

本发明涉及数据处理技术领域,具体地,涉及一种基于深度学习和极值理论的数据异常判断方法及系统。

背景技术

数据中,显著偏离于大部分数据的少量数据被称为异常数据。异常检测旨在发现这一类异常数据,在很多领域具有重要应用价值,如金融活动中检测虚假交易、网络安全中识别网络攻击。异常检测的一般流程,首先根据采用的主体检测技术来定义异常分数,如基于距离的方法常用数据间的距离定义异常分数;然后用检测技术对每个数据样本评定异常分数;再对异常分数设定阈值,将高于阈值的数据视为异常数据。阈值的选择,会影响到判定数据是否异常的过程,从而影响异常检测的判定准确程度。现在大多数异常检测方法中,阈值的选择通过人工设定,通常需要相关工作者充分观察分析数据特征,从异常分数值高的数据中识别异常数据,才能选择合适的异常分数值来界定异常,阈值选择难度大、时间和人力成本高。同时,人工设定的阈值难以保证客观合理性,也无法进行科学解释。除此之外,一旦数据集发生改变,又需要重新分析数据集来寻找合适的阈值。

异常检测的方法分为传统方法和神经网络方法两大类。传统异常检测方法基于传统机器学习模型,比如聚类模型、距离模型、树模型等,这些模型对于非线性特征关系处理能力有限,并且容易陷入维度诅咒,无法有效处理高维数据。神经网络与深度学习的出现为异常检测提供新的思路。现有基于深度学习的无监督异常检测方法通常分两步,第一步使用自编码器等表征学习方法将数据在新表征空间中表示,第二步基于重构误差或者距离关系在新表征空间中定义异常分数。这些表征学习方法的目标在于提高表征的表达能力,没有直接对异常分数进行优化,也没有在表征空间中更进一步引导数据分布,使得数据没有得到充分利用,并且第二步得到异常分数质量较低。

发明内容

本发明针对现有技术中存在的上述不足,提供了一种基于深度学习和极值理论的数据异常判断方法及系统。

本发明是通过以下技术方案实现的。

根据本发明的一个方面,提供了一种基于深度学习和极值理论的数据异常判断方法,包括:

根据当前数据集中的数据样本,构建异常评分模型,并对异常评分模型进行迭代优化,使得异常评分模型趋近优化目标;

通过异常评分模型获取数据样本的异常分数值;

根据获取的数据样本的异常分数值中的极端值,估计极值分布公式参数,使用阈值计算公式计算异常分数阈值;

利用异常评分模型获取当前数据集中的待判断数据的异常分数,将待判断数据的异常分数与异常分数阈值进行比较,对于异常分数超过异常分数阈值的数据,标定为异常数据,完成对数据的异常判断。

优选地,所述根据数据样本,构建异常评分模型,并对异常评分模型进行迭代优化,使得异常评分模型趋近优化目标,包括:

根据数据样本,使用神经网络技术训练构建异常评分模型的表征学习器;使用表征学习器进行数据到表征的映射,从而得到数据在表征空间中的表示,即数据表征;

根据得到的数据表征,使用神经网络技术训练构建异常评分模型的异常评分器;使用异常评分器对数据表征进行评分,得到与数据样本对应的异常分数;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011060903.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top