[发明专利]一种基于强化学习的数据中心虚拟化网络故障诊断方法有效
申请号: | 201910644115.7 | 申请日: | 2019-07-17 |
公开(公告)号: | CN110740054B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 东方;沈典;张欢欢;王士琦;罗军舟 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L41/12 | 分类号: | H04L41/12;H04L41/06;H04L41/14;H04L41/142 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 葛潇敏 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 数据中心 虚拟 网络 故障诊断 方法 | ||
本发明公开一种基于强化学习的数据中心虚拟化网络故障诊断方法,包括如下步骤:步骤1,初始化网络故障诊断模型;步骤2,根据设定的故障诊断目标,采用强化学习算法训练Q表,所述Q表记录了每种故障下采取每个动作获得的累计折扣奖励值;步骤3,故障发生时,将网络状态信息映射到Q表中的网络状态,根据网络状态查询Q表,依据奖励值最大原则选择动作作为故障诊断结果;步骤4,使用信息增益方法进一步优化网络状态空间,降低模型内存使用开销同时提高诊断精度。此种方法将故障感知过程放置在信息采集服务器降低信息采集开销,同时使用强化学习算法构建网络故障诊断模型,再使用信息增益方法进一步优化故障诊断模型,提高了故障诊断精度。
技术领域
本发明属于数据中心网络和强化学习领域,特别涉及一种使用强化学习算法解决数据中心虚拟化网络故障诊断方法。
背景技术
作为云计算的核心基础设施,(云)数据中心在近年来得到了学术界和工业界的广泛关注。数据中心通过网络连接服务器形成大规模集群,以按需分配、弹性扩展的方式向上层应用提供海量存储能力和超强计算能力,目前越来越多的应用被部署在数据中心,如Storm、Spark等计算框架,Hbase、Ceph等存储系统以及Redis、Memcache等缓存系统。数据中心的计算、存储以及内存资源以网络相连形成海量资源池,为应用程序提供按需服务。因此,网络是数据中心提供海量资源的核心。
但是网络故障会导致应用程序的任务完成时间延长、响应慢、服务不可用等问题,影响用户体验,降低数据中心可用性。以缓存系统为例,缓存系统把最近访问或经常访问的内容放置在内存中,当请求到来时,通过预先访问缓存提高应用响应速度,降低服务器访问压力。而网络故障(如网络不可达)导致用户请求直接发送给服务器,服务器负载急剧上升,部分用户请求出现响应速度下降,甚至服务不可用等问题。而数据中心具有网络异构、通信复杂等特点,使得数据中心存在大量网络故障。Toronto大学和微软的研究团队发现,微软的数据中心平均每天有5.2个设备故障,40.8个链路故障,每个故障大约需要5分钟进行定位与诊断,最长的故障诊断时间达到了一周。研究过程中还发现,每个故障大约会导致59000个丢包。斯坦福大学在2012年对61个不同规模的数据中心故障做了一个详细的统计,统计结果表明:数据中心最常见的故障是可达性故障、吞吐量下降或延迟故障以及一些暂时性故障(突发流量引起的丢包等)。故障原因也有多种,主要是硬件故障、交换机或路由器的软件bug等。参与统计的数据中心中,大约有35%的数据中心一个月会遇到100个以上的网络故障;22.8%的数据中心在出现故障时,需要一个工程师花费1-5个小时进行故障定位与故障修复。美国Ponemon安全机构对63个数据中心网络故障引起的经济损失进行了研究,研究结果表明数据中心故障造成的经济损失呈逐年递增的趋势,2010年网络故障导致的经济损失为505,502美元,而在2016年增长到了740,357美元,经济损失增长了38%。因此,网络故障在数据中心普遍存在,造成了大量的经济损失,快速、精确的数据中心网络故障诊断具有重要的意义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910644115.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:业务编排方法及装置
- 下一篇:用于设备迁移的系统和方法