[发明专利]基于深度强化学习的网络攻击检测方法在审
申请号: | 202310109721.5 | 申请日: | 2023-02-14 |
公开(公告)号: | CN116055209A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 姚琳;田子缘;吴国伟;崔桂彰 | 申请(专利权)人: | 大连理工大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F21/55;G06N3/04;G06N3/08;G06F17/16 |
代理公司: | 辽宁鸿文知识产权代理有限公司 21102 | 代理人: | 王海波 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 网络 攻击 检测 方法 | ||
1.一种基于深度强化学习的网络攻击检测方法,其特征在于,步骤如下:
(1)特征选择智能体环境状态模型的构造;
环境状态模型即智能体所需要的环境,包括奖励函数的定义与交互反馈规则的设计,具体内容如下:
(1.1)首先使用Ut来代表第t时刻智能体获得的折扣未来累积奖励,然后考虑具体的应用背景;
折扣未来累积奖励Ut:智能体能感知环境的状态并根据环境提供的反馈信号rt,通过学习选择动作,最大化折扣未来积累奖励;通过引入折扣因子γ来减小步骤之间的强关联性,将折扣未来累积奖励Ut作为折扣未来累积奖励,其表达式为:
其中,Rt是第t时刻智能体接受的反馈,γ∈[0,1]是折扣系数,用于提升即时奖励而不是延迟奖励;
当γ接近0时,表示更重视当下的回报;当γ接近1时,表示更重视未来的回报;
(1.2)在定义好奖励函数后,设计智能体Agent与环境的交互反馈规则,即奖励机制;
设计一种双奖励机制,考虑的评估指标包括检测结果的准确率accuracy、精确率precision、召回率recall以及模型的运行时间time,并设计如下的奖励公式:
其中,ω表示衡量对应评估指标的权重矩阵,用来衡量各评估指标的重要性、设置偏好程度以及优先级等;R表示奖励矩阵,每个评估指标对应一个奖励分量;r_a表示准确率的反馈,r_p表示精确率的反馈,r_r表示召回率的反馈,r_t表示运行时间的反馈;
在每一次迭代时,把新选择的特征添加到已选择的特征集,如果智能体使用新特征集训练出来的指标有所降低,那么就把新特征的reward设置为-100;如果各项指标有所提升,首先记录提升过后的各项检测指标对应的反馈,即准确率r_a、精确率r_p、召回率r_r、运行时间r_t,然后根据各项指标对应的权值计算新的reward;
(2)特征选择智能体价值函数的构造;
价值函数是奖励的期望,主要用于评价不同状态的好坏,指导智能体动作的选择,还用价值函数来评估智能体在某时间t状态s的好坏程度,具体内容如下:
(2.1)首先计算价值函数Q(s,a),用于评估当前智能体从状态s开始,执行动作a且服从策略ε的期望返回,公式如下:
Qπ(s,a)=Eπ[Ut|St=s,At=a]
其中,St表示第t时刻智能体所处状态,At表示第t时刻智能体执行的动作,Eπ智能体的训练策略;
在获取到当前状态s对应的所有可能动作a的价值,结合训练策略,智能体需要选择最优动作,即基于策略π,在所有的Q(s,a)中取最大值,这便是动作at的决策过程,公式如下:
其中,Q*(st,at)是第t个时间步所有动作的最大价值;
(2.2)经过价值函数的构造,智能体根据既定的策略,对当前状态所有可能的动作进行有规律的选取;因此,对策略进行定义,具体内容如下:
选用贪心策略,其表示在智能体做决策时,存在∈的概率随机选择未知的一个动作,0∈1,剩下的1-∈的概率选择已有动作中价值最大的动作;当智能体选取某特征并最终将其加入到最优特征集后,需要将其从动作空间中移除或重置其Q值,也就是说,将选取该特征的动作对应的Q值尽可能大的降低,保证该特征在后续的训练中尽可能不会被选择。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310109721.5/1.html,转载请声明来源钻瓜专利网。