[发明专利]一种区块链二部图不平衡数据集上的无监督异常用户检测方法在审
| 申请号: | 202211404580.1 | 申请日: | 2022-11-10 |
| 公开(公告)号: | CN115841332A | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 王军杰;李涤非;张子牛;刘震 | 申请(专利权)人: | 电子科技大学 |
| 主分类号: | G06Q20/40 | 分类号: | G06Q20/40;G06Q20/06;G06Q40/04;G06F18/243;G06N3/0455;G06N3/0499;G06N3/084 |
| 代理公司: | 电子科技大学专利中心 51203 | 代理人: | 陈一鑫 |
| 地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 区块 二部 不平衡 数据 监督 异常 用户 检测 方法 | ||
1.一种区块链二部图不平衡数据集上的无监督异常用户检测方法,其特征在于,包括以下步骤:
步骤1:根据区块链二部图不平衡数据集上的全局结构,使用基于模式挖掘的图异常检测算法来对所有用户节点进行标注;
步骤2:将各个用户节点的原始特征向量和步骤S1得到的标签输入到基于特征学习的图编码器,再根据异常值补偿方法优化的铰链损失函数训练图神经网络,得到各个节点的低维特征向量;
步骤3:将图编码器输出的各个节点的低维特征向量输入到前馈神经网络当中进行二分类,实现对异常用户的检测,并计算出该不平衡数据集中模型对测试集的F1值,根据F1值衡量检测效果。
2.根据权利要求1所述的一种无监督的区块链二部图不平衡数据集上的异常用户检测方法,其特征在于,所述步骤1的方法为:
对于无监督的基于模式挖掘的图异常检测算法,主要可以将其分为两类:群体异常检测算法和个体异常检测算法,这些算法都是根据二部图的全局结构来对用户节点进行分类;
群体异常检测算法:群体异常检测算法是通过检测图邻接矩阵的密集块来发掘异常节用户;
个体异常检测算法:个体异常检测算法旨在根据各个节点的图结构信息来寻找整个图结构中的离群点以判定异常用户;
利用上述异常检测算法,完成步骤1所述的对所有用户节点标签的标注。
3.根据权利要求1所述的一种无监督的区块链二部图不平衡数据集上的异常用户检测方法,其特征在于,所述步骤2包括以下步骤:
步骤2.1:构建基于特征学习的图编码器,对编码器进行定义,根据异常值补偿方法构建图编码器损失函数;
步骤2.2:将数据集中各个节点的原始特征向量及标签输入图编码器;
步骤2.3:以最小化图编码器损失函数为目标,使用随机梯度下降法对图编码器进行更新,得到最终各个用户节点的低维特征向量;
所述基于特征学习的图编码器的构建步骤如下所述:
定义用户节点u基于模式挖掘的图异常检测算法得到的标签为yu;
定义输入空间input space:
定义输出空间output space:
定义神经网络模型neural network:φ(;w):x→F;
神经网络模型权重w={W1,…,WL},L∈N,N为隐藏层层数;
定义训练数据:x={u1,…,uN}
定义函数f:u→Rd;
定义函数g:u×u→R用于描述用户节点u和u′的相似度为:
g(u,u')=f(u)T·f(u′)
构造图编码器损失函数为:
其中,v是用户节点u的邻居用户,mu是异常值补偿方法计算出的补偿内容。
4.根据权利要求1所述的一种无监督的不平衡区块链二部图数据集上的异常用户检测方法,其特征在于,所述步骤3包括以下步骤:
步骤3.1:构建用于二分类的前馈神经网络,对前馈神经网络进行定义;
步骤3.2:将步骤2中图编码器输出的用户节点的低维特征向量输入到前馈神经网络中;
步骤3.3:以前馈神经网络损失函数最小为目标,使用随机梯度下降法对前馈神经网络进行更新,实现对所有节点的分类;
步骤3.4:根据测试集的检测结果,计算出相应的精确率,召回率和F1值,根据得到的F1值衡量异常用户检测性能的优劣。
5.根据权利要求3所述的一种无监督的区块链二部图不平衡数据集上的异常用户检测方法,其特征在于,在构建需要的基于特征学习的图编码器时,使用异常值补偿方法对铰链损失函数进行补偿来构造图编码器损失函数;
定义的异常值补偿方法将对用户节点u的补偿分为两个部分:群体异常值和个体异常值;其中个体异常值又分为了两个部分:连接离群值和分布偏移值;异常值补偿方法的计算步骤为:
步骤2.3.1:计算群体异常值,即将同一类节点视为一个群体,根据该群体中个体数量进行补偿,定义用户节点u的群体异常值为:
其中,为标签为yu的用户总数,C为常数;
步骤2.3.2:计算个体异常值,即根据各个节点的邻域拓扑结构所蕴含的特征信息来实现对损失函数的一个补偿;个体异常值的补偿内容又分为了连接离群值和分布偏移值两部分;
步骤2.3.2.1:计算连接离群值;
首先规定在二部图中,用户群体中各用户节点的二跳邻居节点为该用户节点的邻居用户;
在用户集合U中,用户个体总数记为|U|,其中用户v的标签记为yv,则用户v的非同类节点标签记为其中对于用户v,其邻居用户的集合记为该集合中个体总数即为节点v的邻居用户总数记为dv;在此之上;定义用户邻居分布矩阵和全局连接状态矩阵来计算个体异常值;
用户邻居分布矩阵:用户邻居分布矩阵用来表示各个用户节点不同类别的邻居用户的分布比例,其计算方式为:
表示用户集合U中用户i其邻居用户中标签为yv=j邻居的所占比例;
全局连接状态矩阵:全局连接状态矩阵是用来表示在整个用户集合中,每种标签的用户的不同类别邻居用户分布比例的平均值,其计算方式为:
其中,V表示用户集合;
结合以上定义,为描述易被误判的用户节点,即那些邻居用户的标签分布与该类别的邻居用户分布的平均值存在较大差距的节点,使用JS散度将用户节点u的连接离群值计算方式定义为:
其中,JS(.)表示JS散度;
步骤2.3.2.2:计算分布偏移值;
对于离群用户v,为计算出其邻居用户的标签分布比例与该类别邻居用户分布比例平均值之间的偏移量,即计算Dv,:相较于偏移程度,以对图编码器损失函数进行更精确的补偿,定义了分布偏移值衡量这一指标;结合以上规定,在向量空间内,将用户节点u的分布偏移值定义为:
最终,通过对连接离群值和分布偏移值乘上合适的系数并相加,便实现了对单独节点邻域拓扑结构的较为完整的描述,借此挖掘出各个节点邻域拓扑结构所蕴含的结构信息,从而对用户u个体异常值的计算定义为:
其中,α,β为超参数;
步骤2.3.3:将分别从群体角度和各个节点邻域拓扑结构的角度出发计算得到的群体异常值和个体异常值相加便是异常值补偿方法中对铰链损失函数中间隔的针对性补偿,定义为:
得到最终异常值补偿方法改进后的铰链损失函数将用于图编码器的训练,其表达式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211404580.1/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置





