[发明专利]一种针对大数据平台的慢任务原因检测方法有效

专利信息
申请号: 201711436008.2 申请日: 2017-12-26
公开(公告)号: CN108153587B 公开(公告)日: 2021-05-04
发明(设计)人: 杨海龙;周红刚;李云春;李巍 申请(专利权)人: 北京航空航天大学
主分类号: G06F9/48 分类号: G06F9/48;G06F9/50;G06F11/34
代理公司: 北京科迪生专利代理有限责任公司 11251 代理人: 杨学明;邓治平
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 大数据的应用程序处理过程一般会划分为多个阶段,每个阶段划分多个任务在多个节点上并行执行,这些任务一般执行相同的代码,当一个阶段所有任务全部完成才能进入下一个阶段执行。在处理过程中,很多因素会导致某些任务执行时间过长,这些任务大幅拖慢了程序的执行时间,检测导致这些慢任务的原因(故障诊断)有助于大数据应用开发人员改善大数据应用性能。本发明提出的针对大数据平台的慢任务原因检测方法,通过周期性的硬件信息采样和运行日志分析的方法获取相关特征并运用统计学方法得出导致慢任务的原因。
搜索关键词: 一种 针对 数据 平台 任务 原因 检测 方法
【主权项】:
一种针对大数据平台的慢任务原因检测方法,其特征在于,首先提取资源占用特征和大数据平台日志特征,然后将慢任务的特征和同阶段不同任务的特征进行对比,得到慢任务原因;包括以下步骤:步骤(1)从集群调度器获取原始日志信息;集群调度器负责调度用户应用程序,当用户应用程序结束后,集群调度器将日志信息整合,形成原始日志信息,送往故障分析器;步骤(2)故障分析器解析原始日志信息,获取资源占用序列,负载生成时间段序列,任务对象序列;故障分析器解析不同来源的原始日志信息,将资源占用日志解析成按照计算节点分开存储的且按照时间先后顺序排列的资源占用序列,将负载占用日志解析成按照计算节点分开存储的且按照时间先后顺序排列的负载生成时间段序列,将大数据日志信息解析成按照任务序号排列的且包含原始特征的任务对象序列;步骤(3)将资源占用信息、负载生成信息融合到任务对象序列中;遍历任务对象序列,找到任务所在节点和时间跨度信息,从资源占用序列中找到对应的资源占用信息,求平均后存入任务对象中;然后遍历负载生成时间段序列,如果负载生成时间段和任务跨度有重合,就把该负载信息存入任务对象中,表示该任务是在该负载的影响下运行的;步骤(4)获取每个任务的执行时间和该任务所在阶段的所有任务的执行时间;遍历所有任务,找到每个任务所在阶段的所有任务,记录其运行时间到阶段对象中;步骤(5)通过将任务的执行时间和任务所在阶段的所有任务的执行时间的中位数对比得到慢任务信息,找到任务所在阶段对象所有任务执行时间的中位数,如果某任务执行时间大于中位数的1.5倍,就认为该任务是慢任务,并将其加入慢任务索引中;步骤(6)从任务对象中清洗、归一化数据,抽取需要的特征;数据清洗是指去除无用的特征;对从原始任务中提取的离散的特征进行编码;导致慢任务原因的特征包括离散特征和数值型特征,离散特征包括数据本地性特征,数值型特征包括时间特征和非时间特征,非时间特征包括资源占用特征和普通数值特征;将时间特征除以该任务执行的时间得到归一化的时间特征,将非时间特征除以阶段所有任务该特征的平均值得到归一化的非时间特征;步骤(7)获取应用程序所有任务对象的特征集合,统计每个特征全局分位点信息;包括:为每一个特征建立全局索引,遍历每个任务对象,将任务的特征加入到全局特征索引所对应的数组型数据结构中,然后根据配置文件指定的阈值对所有特征统计分位点;步骤(8)遍历每个慢任务;对所有慢任务及其每一个特征执行下面的判断逻辑,包括以下步骤:(8‑1)如果该特征是数值型特征,判断(8‑3),否则判断(8‑2);(8‑2)如果该特征是异常特征并且同阶段其他任务的此特征为非异常特征,所述异常特征是指该特征的数值不为0并且值大于同阶段所有特征的平均值的若干倍,倍数由配置文件指定),则判定该特征为慢任务原因,否则,该特征不是慢任务原因,结束判断;(8‑3)如果该特征是时间特征,判断(8‑4),否则,判断(8‑5);(8‑4)判断该特征是否大于预设阈值,所述预设阈值根据用户的配置设定;如果是则判断(8‑5),否则,该特征不是慢任务原因,结束判断;(8‑5)该特征是否大于该特征的全局分位点,如果是判断(8‑6),如果不是,则该特征不是慢任务原因,结束判断;(8‑6)该特征是否是资源占用特征,如果是,需要执行边缘检测算法,判断(8‑7),否则,判断(8‑8);(8‑7)该特征是否在任务开始的时候上升,并且在任务结束的时候下降,如果是,则认为该特征不是慢任务原因,结束判断,否则,继续判断(8‑8);(8‑8)该特征是否大于阶段其他任务的特征中位数的若干倍,倍数由配置文件指定,如果是,则该特征是慢任务原因,否则,该特征不是慢任务原因,结束判断;步骤(9)可视化慢任务及其原因分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201711436008.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top