[发明专利]基于深度强化学习的网络攻击检测方法在审

申请号：	202310109721.5	申请日：	2023-02-14
公开（公告）号：	CN116055209A	公开（公告）日：	2023-05-02
发明（设计）人：	姚琳;田子缘;吴国伟;崔桂彰	申请（专利权）人：	大连理工大学
主分类号：	H04L9/40	分类号：	H04L9/40;G06F21/55;G06N3/04;G06N3/08;G06F17/16
代理公司：	辽宁鸿文知识产权代理有限公司 21102	代理人：	王海波
地址：	116024 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习网络攻击检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的网络攻击检测方法，其特征在于，步骤如下：

(1)特征选择智能体环境状态模型的构造；

环境状态模型即智能体所需要的环境，包括奖励函数的定义与交互反馈规则的设计，具体内容如下：

(1.1)首先使用U_t来代表第t时刻智能体获得的折扣未来累积奖励，然后考虑具体的应用背景；

折扣未来累积奖励U_t：智能体能感知环境的状态并根据环境提供的反馈信号r_t，通过学习选择动作，最大化折扣未来积累奖励；通过引入折扣因子γ来减小步骤之间的强关联性，将折扣未来累积奖励U_t作为折扣未来累积奖励，其表达式为：

其中，R_t是第t时刻智能体接受的反馈，γ∈[0,1]是折扣系数，用于提升即时奖励而不是延迟奖励；

当γ接近0时，表示更重视当下的回报；当γ接近1时，表示更重视未来的回报；

(1.2)在定义好奖励函数后，设计智能体Agent与环境的交互反馈规则，即奖励机制；

设计一种双奖励机制，考虑的评估指标包括检测结果的准确率accuracy、精确率precision、召回率recall以及模型的运行时间time，并设计如下的奖励公式：

其中，ω表示衡量对应评估指标的权重矩阵，用来衡量各评估指标的重要性、设置偏好程度以及优先级等；R表示奖励矩阵，每个评估指标对应一个奖励分量；r_a表示准确率的反馈，r_p表示精确率的反馈，r_r表示召回率的反馈，r_t表示运行时间的反馈；

在每一次迭代时，把新选择的特征添加到已选择的特征集，如果智能体使用新特征集训练出来的指标有所降低，那么就把新特征的reward设置为-100；如果各项指标有所提升，首先记录提升过后的各项检测指标对应的反馈，即准确率r_a、精确率r_p、召回率r_r、运行时间r_t，然后根据各项指标对应的权值计算新的reward；

(2)特征选择智能体价值函数的构造；

价值函数是奖励的期望，主要用于评价不同状态的好坏，指导智能体动作的选择，还用价值函数来评估智能体在某时间t状态s的好坏程度，具体内容如下：

(2.1)首先计算价值函数Q(s,a)，用于评估当前智能体从状态s开始，执行动作a且服从策略ε的期望返回，公式如下：

Q_π(s,a)＝E_π[U_t|S_t＝s,A_t＝a]

其中，S_t表示第t时刻智能体所处状态，A_t表示第t时刻智能体执行的动作，E_π智能体的训练策略；

在获取到当前状态s对应的所有可能动作a的价值，结合训练策略，智能体需要选择最优动作，即基于策略π，在所有的Q(s,a)中取最大值，这便是动作a_t的决策过程，公式如下：

其中，Q^*(s_t,a_t)是第t个时间步所有动作的最大价值；

(2.2)经过价值函数的构造，智能体根据既定的策略，对当前状态所有可能的动作进行有规律的选取；因此，对策略进行定义，具体内容如下：

选用贪心策略，其表示在智能体做决策时，存在∈的概率随机选择未知的一个动作，0∈1，剩下的1-∈的概率选择已有动作中价值最大的动作；当智能体选取某特征并最终将其加入到最优特征集后，需要将其从动作空间中移除或重置其Q值，也就是说，将选取该特征的动作对应的Q值尽可能大的降低，保证该特征在后续的训练中尽可能不会被选择。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于大连理工大学，未经大连理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310109721.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L9-00 保密或安全通信装置
H04L9-06 .使用移位寄存器或存储器用于块式码的密码装置，例如dES系统
H04L9-10 .带有特殊机体，物理特征或人工控制
H04L9-12 .同步的或最初建立特殊方式的发送和接收密码设备
H04L9-14 .使用多个密钥或算法
H04L9-18 .用串行和连续修改数据流单元加密，例如数据流加密系统

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的网络攻击检测方法在审

专利文献下载