[发明专利]基于深度学习和极值理论的数据异常判断方法及系统在审
申请号: | 202011060903.0 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112163624A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 金耀辉;何浩;黄宗源;李龙元 | 申请(专利权)人: | 上海交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海恒慧知识产权代理事务所(特殊普通合伙) 31317 | 代理人: | 张宁展 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 极值 理论 数据 异常 判断 方法 系统 | ||
本发明提供一种基于深度学习和极值理论的数据异常判断方法及系统,根据当前数据集中的数据样本,构建异常评分模型,并对异常评分模型进行迭代优化,使得异常评分模型趋近优化目标;通过异常评分模型获取数据样本的异常分数值;根据获取的数据样本的异常分数值中的极端值,估计极值分布公式参数,使用阈值计算公式计算异常分数阈值;利用异常评分模型获取当前数据集中的待判断数据的异常分数,将待判断数据的异常分数与异常分数阈值进行比较,标定异常数据。本发明端到端对异常分数优化有利于充分利用数据和表征学习能力;同时能根据实际数据集来判断异常分数阈值,有效避免人工判断阈值的复杂性和主观性,提高方法迁移能力和异常识别能力。
技术领域
本发明涉及数据处理技术领域,具体地,涉及一种基于深度学习和极值理论的数据异常判断方法及系统。
背景技术
数据中,显著偏离于大部分数据的少量数据被称为异常数据。异常检测旨在发现这一类异常数据,在很多领域具有重要应用价值,如金融活动中检测虚假交易、网络安全中识别网络攻击。异常检测的一般流程,首先根据采用的主体检测技术来定义异常分数,如基于距离的方法常用数据间的距离定义异常分数;然后用检测技术对每个数据样本评定异常分数;再对异常分数设定阈值,将高于阈值的数据视为异常数据。阈值的选择,会影响到判定数据是否异常的过程,从而影响异常检测的判定准确程度。现在大多数异常检测方法中,阈值的选择通过人工设定,通常需要相关工作者充分观察分析数据特征,从异常分数值高的数据中识别异常数据,才能选择合适的异常分数值来界定异常,阈值选择难度大、时间和人力成本高。同时,人工设定的阈值难以保证客观合理性,也无法进行科学解释。除此之外,一旦数据集发生改变,又需要重新分析数据集来寻找合适的阈值。
异常检测的方法分为传统方法和神经网络方法两大类。传统异常检测方法基于传统机器学习模型,比如聚类模型、距离模型、树模型等,这些模型对于非线性特征关系处理能力有限,并且容易陷入维度诅咒,无法有效处理高维数据。神经网络与深度学习的出现为异常检测提供新的思路。现有基于深度学习的无监督异常检测方法通常分两步,第一步使用自编码器等表征学习方法将数据在新表征空间中表示,第二步基于重构误差或者距离关系在新表征空间中定义异常分数。这些表征学习方法的目标在于提高表征的表达能力,没有直接对异常分数进行优化,也没有在表征空间中更进一步引导数据分布,使得数据没有得到充分利用,并且第二步得到异常分数质量较低。
发明内容
本发明针对现有技术中存在的上述不足,提供了一种基于深度学习和极值理论的数据异常判断方法及系统。
本发明是通过以下技术方案实现的。
根据本发明的一个方面,提供了一种基于深度学习和极值理论的数据异常判断方法,包括:
根据当前数据集中的数据样本,构建异常评分模型,并对异常评分模型进行迭代优化,使得异常评分模型趋近优化目标;
通过异常评分模型获取数据样本的异常分数值;
根据获取的数据样本的异常分数值中的极端值,估计极值分布公式参数,使用阈值计算公式计算异常分数阈值;
利用异常评分模型获取当前数据集中的待判断数据的异常分数,将待判断数据的异常分数与异常分数阈值进行比较,对于异常分数超过异常分数阈值的数据,标定为异常数据,完成对数据的异常判断。
优选地,所述根据数据样本,构建异常评分模型,并对异常评分模型进行迭代优化,使得异常评分模型趋近优化目标,包括:
根据数据样本,使用神经网络技术训练构建异常评分模型的表征学习器;使用表征学习器进行数据到表征的映射,从而得到数据在表征空间中的表示,即数据表征;
根据得到的数据表征,使用神经网络技术训练构建异常评分模型的异常评分器;使用异常评分器对数据表征进行评分,得到与数据样本对应的异常分数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学,未经上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011060903.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电梯无线外呼控制器
- 下一篇:一种多维时间序列异常检测方法及检测系统