[发明专利]一种基于击键动力学与鼠标动力学的多场景主体识别方法在审
| 申请号: | 202110909431.X | 申请日: | 2021-08-09 |
| 公开(公告)号: | CN113722685A | 公开(公告)日: | 2021-11-30 |
| 发明(设计)人: | 王秀娟;石雨桐;郑康锋;随艺;曹思玮 | 申请(专利权)人: | 北京工业大学;北京邮电大学 |
| 主分类号: | G06F21/31 | 分类号: | G06F21/31;G06K9/62;G06N3/04 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 击键 动力学 鼠标 场景 主体 识别 方法 | ||
1.一种基于击键动力学与鼠标动力学的多场景主体识别方法,其特征在于,包括:
步骤1、特征提取,数据预处理;
步骤2、使用互信息与信息熵方法生成各场景的特征权重向量,并将权重向量合并为权重矩阵;
步骤3、使用支持向量机和权重矩阵正则化统一各场景权重;
步骤4、根据权重矩阵选择特征,使用长短期记忆人工神经网络进行用户识别。
2.根据权利要求1所述的方法,其特征在于:
步骤1、提取特征,数据预处理
按时间片长度提取键盘与鼠标的时序特征;键盘时序特征有5种,分别为单一按键按下与释放间的时间间隔(DT)、两个按键中第一个按键释放与第二个按键按下的时间间隔(UD)、第一个按键按下与第二个按键按下的时间间隔(DD)、第一个按键释放与第二个按键释放的时间间隔(UU)以及第一个按键按下与第二个按键释放的时间间隔(DU);击键特征适用于每一个按键以及每一个键对,对于全尺寸110键键盘,每个时间片内单键的DT特征共110维,键对间的UD、DD、UU、DU特征各12100维,共48400维,故每个时间片内击键特征共48510维;鼠标时序特征有7种,分别为以100像素为分割的各距离的平均移动速度(MDS)、各方向的平均移动速度(MDA)、各方向操作数比例(MDH)、各操作类型的平均移动速度(ATA)、各操作类型的操作数量比例(ATH)、各移动距离的操作数量比例(TDH)以及各时间内操作数量比例(MTH);其中各距离的平均移动速度(MDS)、各方向的平均移动速度(MDA)、各方向操作数比例(MDH)、各移动距离的操作数量比例(TDH)根据8个方向以及1~800像素内每100像素间距定义,故为8维特征;各操作类型的平均移动速度(ATA)、各操作类型的操作数量比例(ATH)根据用户的四种操作类型(移动、拖拽、禁止以及点点击)定义,故为4维特征;各时间内操作数量比例(MTH)为1~1000毫秒内每200毫秒的时间间隔,故为5维特征;最后得到每个时间片内鼠标特征共45维,每一时间片内获得的特征向量有45个元素;分别获得击键特征与鼠标特征后按时间片拼接,获得48555维特征向量,单一时间片内未出现操作的相应特征分量用0填充;
将单一时间片内特征分量全为0的特征向量以及所有特征向量中全为0的特征分量删除,并使用同类均值插补法完成数据预处理;
步骤2、使用信息熵与互信息方法生成各场景的特征权重向量,并将权重向量合并为权重矩阵
特征向量定义为f=[f1,f2,f3,f4,...,fn-1,fn],其中每个fi为一个特征分量,n可以为任意数;
信息熵(Information Entropy)是一种对信息的量化度量,也就是一个事件信息量的期望;其定义公式为
其中p(xi)为随机事件xi发生的概率;
在基于上述信息熵定义公式计算每个特征分量fi的信息熵
其中|Df|为数据集中实例个数(即特征分量fi的个数),aij为特征分量的取值,|aij|为各特征向量中特征分量fi中取值为aij的个数;
互信息定义公式为
其中p(x,y)为随机变量X和Y的联合概率分布,p(x)和p(y)分别是随机变量X和Y的边缘概率分布;
计算每个特征分量fi与其他特征分量fj(i≠j)的互信息
其中联合概率分布|Dij|为特征分量fi的个数乘特征分量fj的个数,|(aik,ajl)|为特征分量fi中值为aik的个数与特征分量fj中值为ajl的个数的乘积;边缘概率分布这里获得的是各个特征分量间的互信息,为了获得单一特征分量相对于所有特征分量的互信息,这里使用平均归一化互信息
其中I(fi;fj)是特征分量fi和fj之间的互信息,H(fi)和H(fj)分别是特征分量fi和fj的信息熵;平均归一化互信息反应特征分量fi与其余所有特征分量之间的总体互信息大小;
根据信息熵与平均归一化互信息所反映的特征分量内与特征分量间的信息量大小,可以将信息熵与平均归一化互信息作差获得特征分量权重,即使用公式
W(fi)=H(fi)-AVGMINORM(fi), (6)
其中H(fi)是特征分量fi的信息熵,AVGMINORM(fi)是特征分量fi的平均归一化互信息;
根据公式(6)获得各个场景的特征分量权重后,各场景可分别生成一个48555维特征权重列向量,将特征权重列向量横向拼接并删除全0行后获得权重矩阵W权重向量维数×4,全0行即该特征分量在各场景中都对分类没有贡献;此时特征权重矩阵的每列是各场景对于各特征分量的重要性信息,每行是同一特征分量在各场景中的重要性;
步骤3、使用支持向量机和权重矩阵正则化统一各场景权重
支持向量机中最常用的便是合页损失函数,其数学表达式为
其中是样本的预测值,y∈{-1,1}是样本的真实值,max()函数取0和的最大值,即正确分类时损失函数为0反之为
使用支持向量机作为权重矩阵正则化过程中的分类器;
对目标函数施加权重矩阵的l2,1范数正则化;l2,1范数的定义公式为
其中X是r行t列矩阵,xij是矩阵X的第i行j列元素;
通过公式看到l2,1范数是矩阵每行l2范数的l1范数;l2,1范数在保证矩阵每行列稠密性条件下同时保证了矩阵的行稀疏性,对于使用的权重矩阵来说,保证每行的列稠密性即保证了四个场景对于同一个特征分量的权重趋同化,保证列稀疏性即保证了对于四个任务都重要的特征分量权重增加,不重要的减小;故使用目标函数
获得目标权重矩阵,其中u是场景个数,w是用户数量,loss(·)是损失函数,α是正则化系数,wi是第i个场景的特征权重,是第i个场景第j个用户的特征向量,是第i个场景第j个用户的标签,||W||2,1是特征权重矩W的l2,1范数;
使用铰链损失函数(Hinge Loss),并通过以下步骤确定学习率与正则化系数;先将正则化系数设为0,通过在四个取值范围中[0.0001,0.001),[0.001,0.01),[0.01,0.1),[0.1,1)分别等间距取10个数作为学习率,通过运用这些学习率进行学习,分别迭代次后获得loss值并应用这些loss值绘制loss值曲线,选取曲线最低点对应学习率作为应用时学习率;确定学习率之后,根据测试集准确率对正则化系数进行调整,首先确定正则化系数的数量级,设置正则化系数为1,根据测试集准确率改变正则化系数;若测试集准确率低于训练集准确率则将正则化系数增加10倍,若测试集准确率高于训练集准确率则将正则化系数降低10倍;得到一个测试集准确率与训练集准确率都较好的正则化系数数量级,在该数量级下调高正则化系数;选取测试集准确率最好的情况下的系数作为最终的正则化系数α;
确定学习率与正则化系数后四个场景循环迭代该目标函数最多次,并且模型准确率不再提升使目标函数收敛便可获得l2,1范数正则化后的权重矩阵;
步骤4、根据权重矩阵选择特征,使用长短期记忆人工神经网络进行用户识别
特征权重矩阵中对每行取平均值并转置后获得多任务平均特征权重行向量AVGW1×权重向量维数(d)=[w0,...,wd],特征选择方法使用公式
其中wi,wj是平均特征权重向量AVGW的分量,threshold是阈值,是所有特征分量权重的和,是权重前m大的特征分量的权重的和,m从0开始每次加1直到比值大于阈值即选用权重前m大的特征分量作为长短期记忆人工神经网络的输入;这里设置阈值为0.95获得权重前m大的特征分量;
·长短期记忆人工神经网络LSTM
LSTM中当前时刻输入与上一时刻输出值进行拼接分别乘以输入门、输出门、遗忘门权重向量Wi、Wo、Wf,并分别经过激活函数Sigmoid后获得相应控制信号,拼接后的信息经过激活函数tanh获得待处理输入数据当前时刻,遗忘门控制信号ft与上一时刻隐藏层信息Ct-1相乘结果与输入门控制信号it与待处理输入数据相乘结果相加获得当前时刻的隐藏层信息,当前时刻隐藏层信息经过激活函数tanh(输出[-1,1])并与输出门控制信号Ot相乘获得当前时刻输出信号ht。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;北京邮电大学,未经北京工业大学;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110909431.X/1.html,转载请声明来源钻瓜专利网。





