[发明专利]基于混合机器学习的运维时序数据异常检测方法及系统在审
申请号: | 202111481612.3 | 申请日: | 2021-12-07 |
公开(公告)号: | CN114201374A | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 彭雷;高嵩峰;傅湘玲;刘春生;王友军;徐朗朗;苗丛 | 申请(专利权)人: | 华融融通(北京)科技有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100033 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 机器 学习 时序 数据 异常 检测 方法 系统 | ||
本发明公开了基于混合机器学习的运维时序数据异常检测方法及系统,所述方法包括:提取数据、数据预处理、离线预测、离线训练、在线检测、输出判断结果等步骤;所述系统包括数据提取模块、数据预处理模块、离线预测模块、离线训练模块、在线检测模块、判断模块、模型评价模块;本发明的优点在于:依靠历史数据,结合离线预测、离线训练和在线检测三大部分,构建无监督模型,能够在保证准确性和时效性的前提下完成智能运维时序数据的异常检测,解决了当前运维场景下时序数据异常检测缺少标记数据、效率低下、需要依据经验划定阈值、存在大量误报漏报的问题。
技术领域
本发明涉及一种智能运维异常检测系统,具体地说是基于混合机器学习的运维时序数据异常检测方法及系统,属于智能运维异常检测领域。
背景技术
当今全球信息化飞速发展,网络设备数量日益庞大,各个领域为了保障网络服务的稳定,需要专业人员来实时监测运维数据进行系统的运行维护。运维系统中最常见的数据是关键性能指标(key performance indicator,KPI)数据,如网页响应时间、网页访问量、内存使用率等。KPI数据需要专业人员标注相关阈值,进行实时监测。KPI一旦发生异常,往往意味着与这个KPI相关的应用出现了问题。随着系统规模不断变大、复杂性提高,监控数据量越来越大,靠人工从数据中发现异常不太现实,智能化运维数据异常检测愈发重要。
现有的运维时序数据异常检测方法包括基于固定配置的检测、基于统计的检测和基于机器学习的检测三大类。基于固定配置的检测方法是目前工业界最普遍的运维方式,这种方法明确、容易理解。常见的配置方式有阈值划定法、环比方法、同比方法等。基于固定配置的异常检测方式需要运维人员依据经验分别对每项运维指标进行配置和设定,并选用合适的配置方式,容易造成时间和资源的极大浪费,而且指标数据处于持续的变化中,需要进行反复配置,单一的基于固定配置的方法已经不能满足智能运维异常检测的需要。
基于统计的检测方法是通过对收集的监测数据进行统计分析,假设数据遵循某种分布规律,再根据数据的分布规律选定合适的概率模型,根据分布的不一致性做异常检测。常用的基于统计的检测方法有Holt-Winters模型、ARIMA模型、PCA模型等。基于统计的异常检测方式需要观察数据分布得出其所遵循的规律,找到合适的检测模型,需要耗费大量时间找到不同指标适合的模型,因此单一的基于统计的方法不能满足智能运维异常检测的需要。
基于机器学习的检测方法将运维时序数据异常检测问题看做是一个二分类问题,通过对历史数据进行学习和建模来进行异常检测。基于机器学习的检测方法包括监督学习检测方法和无监督学习检测方法。监督学习检测方法需要结合有标签的数据来建立模型,在实际运维场景中,标签数据极少,需要运维人员手动标注来获取,同时监督学习方法训练时间长,检测效率低;无监督学习检测方法无需标记数据,通过对监测原始数据建模,生成数据点的异常分数,完成异常检测,但是无监督学习方法准确度不高,容易产生大量的误报漏报。
发明内容
本发明的目的在于,设计了基于混合机器学习的运维时序数据异常检测方法及系统,依靠历史数据,结合离线预测、离线训练和在线检测三大部分,构建无监督模型,能够在保证准确性和时效性的前提下完成智能运维时序数据的异常检测,解决了当前运维场景下时序数据异常检测缺少标记数据、效率低下、需要依据经验划定阈值、存在大量误报漏报的问题。
本发明的技术方案为:
一种基于混合机器学习的运维时序数据异常检测方法,所述方法包括如下步骤:
步骤一、提取数据,将数据库中的运维数据按分钟级取数,并返回所需的数据格式。由于运维数据是周期型时间序列数据,提取当前时刻数据作为运维时序数据,提取当前时刻前30天内所有数据作为运维历史数据,所述数据格式至少包含运维监控指标名称、时间戳、运维监控指标数值。
步骤二、数据预处理,对步骤一所述的运维历史数据和运维时序数据进行预处理操作,均衡正负样本、填充缺失值,归一化时间戳,完成数据分割,得到干净的历史数据和干净的时序数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华融融通(北京)科技有限公司,未经华融融通(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111481612.3/2.html,转载请声明来源钻瓜专利网。