[发明专利]一种基于强化学习的无线信道指纹方法有效
申请号: | 201510219184.5 | 申请日: | 2015-05-04 |
公开(公告)号: | CN104918249B | 公开(公告)日: | 2018-04-10 |
发明(设计)人: | 肖亮;刘国隆;李燕 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04W12/06 | 分类号: | H04W12/06;H04W12/04;H04L9/32 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于强化学习的无线信道指纹方法,涉及无线通信网络安全。无线接收机根据多个信道上的接收信号强度等物理层信息构造各用户发射机相对应的信道指纹,该信道指纹算法采用强化学习算法,根据接收机系统收益函数,实时自动调节物理层认证的阈值等关键参数,通过对比各用户发射机信道指纹及其历史记录值检测电子欺骗。可以自适应各种无线环境,具有较高的认证精度。 | ||
搜索关键词: | 一种 基于 强化 学习 无线 信道 指纹 方法 | ||
【主权项】:
一种基于强化学习的无线信道指纹方法,其特征在于包括以下步骤:1)无线接收机在M个频点上预先测量和存储各用户发射机的接收信号强度(RSS),每个用户发射机的信道指纹由接收机在M个不同频点测得的RSS构成,即用户发射机r的信道指纹可表示为Hr=(RSS1,RSS2,...,RSSn,...,RSSM),其中RSSn为接收机在第n个信道测得的用户发射机r的RSS,1≤n≤M;无线接收机将存储的各个用户发射机的信道指纹作为对该用户进行物理层认证的参考指纹;2)无线接收机收到某用户发射机发射的数据包之后,将提取该用户发射机的信道指纹对该用户进行物理层认证,若该用户声称自己为用户r,接收机将调取预存用户r的参考指纹,计算该用户信道指纹与用户r的参考指纹之间的欧氏距离,并将归一化处理后的欧氏距离与接收机系统设定的阈值θ进行比较,若归一化处理后的欧氏距离大于接收机系统设定的阈值,则认定属于电子欺骗攻击,将接收到的数据包丢弃,否则进一步执行上层认证;若通过上层认证判定属于合法数据包,则存储下来,并将提取出来的信道指纹作为该用户r新的参考指纹;3)接收机系统对时间T内接收到的由各用户发射机发射的N个数据包进行统计汇总,计算出虚警率PF(θ)和漏报率Pm(θ),获得接收机系统在此刻的状态S,S由系统计算出的虚警率PF(θ)和漏报率Pm(θ)构成,此时接收机系统获得即时收益R(S,θ),即接收机系统收益函数:R(S,θ)=p(‑Pm(θ)Ch+(1‑Pm(θ))α‑Cp)+(1‑p)(‑PF(θ)γ+(1‑PF(θ))(β‑Ch)‑Cp)其中γ为丢失合法数据包系统遭受的损失,α为接收机系统物理层认证正确识别出合法数据包的收益,β为接收机系统物理层认证正确识别出属于电子欺骗攻击的数据包的收益,p为接收机系统遭受电子欺骗攻击的概率,Cp为接收机系统物理层认证所需消耗,Ch为接收机系统上层认证所需消耗;4)接收机系统通过强化学习算法中的Q学习,在最优阈值θ不确定的情况下,学习如何设置阈值,并进行实时调节,从而可以自适应各种无线环境,确保较高的认证精度,获得较好的系统收益,对于不同无线环境,有不同的最优阈值θ,在一次学习过程中,最多可更换Z次阈值,每一次更换阈值后,接收机会有一个观察期,以探测更换阈值对系统造成的影响,Q学习确定最优阈值θ的过程包括以下步骤:4.1)初始化Q值矩阵,对于每一个接收机系统状态S下,接收机可以选择一个a,a∈A,A=[a1,a2,a3,...,aτ],作为阈值θ,τ为可选阈值的个数,对每个状态下的可选择的阈值分配一个对应的Q值即Q(S,θ),对每个初始Q值赋值为0,并设置学习因子α(0<α<1),和折扣因子δ(0<δ<1);4.2)接收机观察系统当前所处状态Sk,以概率ε选择阈值θk,进行第k次更换阈值,1≤k≤Z,即以概率ε选择使得Q(Sk,θ)最大的θ值作为阈值θk,以概率1‑ε选择使得Q(Sk,θ)非最大的θ值作为阈值θk,在更换阈值后,接收机连续对时间T内接收到的由各用户发射机发射的N个数据包进行认证,并观察系统下一个状态Sk+1;4.3)根据公式:Q(Sk,θk)=(1-α)Q(Sk,θk)+α(R(Sk,θk)+δmaxθ∈AQ(Sk+1,θ))]]>对Q值矩阵更新,Q(Sk,θk)是接收机系统在Sk状态下采用θk值为阈值时的Q值,R(Sk,θk)为在Sk状态下采用阈值θk得到的系统即时收益,是服务器在Sk+1状态下,采用让Q值最大化的阈值θ;4.4)重复步骤4.2)、4.3),直到第k次更换阈值后接收机系统满足时,阈值θ收敛,θk即是接收机系统最优阈值;4.5)接收机将θk设定为该无线环境中最优阈值,并利用该值进行物理层认证。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510219184.5/,转载请声明来源钻瓜专利网。