[发明专利]多变量时间序列数据异常检测、模型训练方法和系统有效
申请号: | 202310531272.3 | 申请日: | 2023-05-12 |
公开(公告)号: | CN116304604B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 乔焰;张本初;胡荣耀;赵培;袁新宇;魏振春 | 申请(专利权)人: | 合肥工业大学 |
主分类号: | G06F18/21 | 分类号: | G06F18/21;G06F18/24;G06F18/214;G06N3/0475;G06N3/088 |
代理公司: | 合肥和瑞知识产权代理事务所(普通合伙) 34118 | 代理人: | 金宇平 |
地址: | 230009 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 多变 时间 序列 数据 异常 检测 模型 训练 方法 系统 | ||
1.一种多变量时间序列数据异常检测模型训练方法,其特征在于,包括以下步骤:
St1、获取学习样本,学习样本为多变量时间序列数据;构建基础模型并初始化;基础模型包括过滤模块、生成网络和鉴别网络,生成网络和鉴别网络均为神经网络;多变量时间序列是由多个随时间变化的时间序列所组成的,每个时间序列描述了被监测对象的不同属性值;当被监测对象为服务器时,时间序列由服务器的性能数据构成,包括服务器内部节点的CPU利用率和内存利用率;
生成网络的输入为输入数据x和随机数z,输入数据x为多变量时间序列数据,生成网络用于对随机数z进行重构,以获取并输出重构数据G(z),G(z)为与输入数据x同维度的数据;过滤模块用于清洗输入数据x和重构数据G(z),清洗后的输入数据记作x(a),清洗后的重构数据记作G#;x(a)中包含的数据样本和G#中包含的数据样本一一对应;鉴别网络用于获取数据元组(xq,x#q)的标签(yq,y-q),yq为数据样本xq来自于输入数据x的概率,y-q为数据样本x#q来自于输入数据x的概率;xq∈x(a),x#q∈G#,xq和x#q维度对应;
x=(x1,x2,x3,…,xi,…xn),xi表示输入数据x中第i个时间节点即维度上的数据样本,n为输入数据x的时间点总数,i为序数,1≦i≦n;
G(z)=(x#1,x#2,x#3,…,x#i,…x#n),x#i表示重构数据G(z)中对应xi的数据样本;
St2、选择学习样本作为输入数据x,将输入数据x和随机数z输入生成网络,生成网络根据随机数z生成与输入数据x数据维度相同的重构数据G(z);
St3、计算输入数据x和重构数据G(z)中维度相同的数据样本的重构误差;过滤模块根据重构误差计算生成网络中各数据样本的自适应权重以及输入数据中各数据样本的伪标签;
St4、过滤模块清洗输入数据x和重构数据G(z),获取清洗后的输入数据x(a)和清洗后的重构数据G#;
St5、设置生成损失函数用于计算生成网络在各数据空间上的生成损失,计算x(a)对应的生成损失L(info,x(a))和G(z)对应的生成损失L(info,G);
St6、固定鉴别网络,结合自适应权重损失和生成损失L(info,G)计算第一损失L(G),并根据第一损失L(G)沿反向梯度更新生成网络;
St7、固定生成网络,结合伪标签和生成损失L(info,x(a))计算第二损失L(D),并根据第二损失L(D)沿反向梯度更新鉴别网络;
St8、判断基础模型更新次数是否达到设定值N0;否,则令N更新为N+1,然后返回步骤St2;是,则固定基础模型参数,并从基础模型参数中提取生成网络,将生成网络与设定的评价函数结合,以组成异常检测模型;
过滤模块用于清洗输入数据x中伪标签大于设定值ρ的数据样本,并清洗重构数据G(z),清洗后的重构数据G(z)和清洗后的输入数据x在时间维度上一一对应;伪标签计算公式为:
P(B-xi)=1/(1+eB(xi))
B(xi)=zi×(1-1/N)
zi=(di-d(ave))/δ
di=||xi-x#i||
P(B-xi)表示xi对应的伪标签:B(xi)为过渡项,e表示自然常数;N为迭代次数;zi表示数据样本xi的偏离分数,di表示输入数据x中第i个时间点上的数据样本xi对应的重构误差,d(ave)为输入数据对应的重构误差di的均值,δ为输入数据对应的重构误差di的方差;||xi-x#i||表示xi-x#i的二范数,x#i表示重构数据G(z)中对应xi的数据样本;
St3中,生成网络中各数据样本的自适应权重的计算公式如下:
Δi=[Σf=1,f≠inezf+(N-1)×e-zi]/[Z×Σi=1nezi×N]
Σi=1nezi=ez1+ez2+…+ezi+…+ezn
Δi表示第i个数据样本的自适应权重,N为模型迭代次数,N的初始值为1;Z表示设定的归一化因子;zf表示数据样本xf的偏离分数,1≦f≦n;
St5中,生成损失计算方式如下为:
令数据样本xp来自于数据集合P,L(info,P)表示P对应的生成损失;
L(info,P)=-Exp∈PEk∈M[log[exp(ξ1)/(Exp#∈P-xpEk∈Mexp(ξ2))]]
ξ1=Φ(φ(xp))×Ψ(φ(k,xp))T
ξ2=Φ(φ(xp))×Ψ(φ(k,xp#))T
P=(x1,x2,x3,…,xp,…,xP)
P-xp=(x1,x2,x3,…,x(p-1),x(p+1),x(p+2),…,xP)
鉴别网络针对数据样本提取全局特征和m个局部特征,φ(xp)表示数据样本xp对应的全局特征,φ(k,xp)表示数据样本xp对应的第k个局部特征,φ(k,xp#)表示数据样本xp#对应的第k个局部特征,M表示局部特征的序号集合,M={1,2,3,……,m};
ξ1表示对应同一个数据样本的全局特征和局部特征的组合,ξ2表示对应不同数据样本的全局特征和局部特征的组合;Φ表示鉴别网络中的全局特征投射网络,Φ(φ(xp))表示全局特征φ(xp)的高维线性投射结果,Ψ表示鉴别网络中的局部特征投射网络,Ψ(φ(k,xp))表示局部特征φ(k,xp)的高维线性投射结果,Ψ(φ(k,xp#)表示局部特征φ(k,xp#)的高维线性投射结果;上标T表示矩阵转置;E表示求期望;
St6中第一损失函数L(G)为:
L(G)=L1+Σxi∈x[||xi-x#i||×Δi]+λ×L(info,G)
L1=-Ez~Pz[D(G)]
Ez~Pz[D(G)]表示在随机数z服从正态分布pz时鉴别网络对重构数据G(z)的期望,L1表示鉴别网络固定时生成网络的对抗损失;||xi-x#i||表示xi-x#i的二范数;Δi表示第i个数据样本的自适应权重;λ为设定值;
St7中第二损失函数L(D)为:
L(D)=-[Σxq∈x(a)[(1-yq)×(L2+λ(1)×L(info,x(a)))]]/K
L2=-Exq~x(a)[D(x(a))]+Ez~Pz[D(G#)]
Exq~x(a)[D(x(a))]表示在数据样本xq服从数据空间x(a)分布时鉴别网络对xq的期望;Ez~Pz[D(G#)]表示在随机数z服从正态分布pz时鉴别网络对清洗后的重构数据G#的期望;L2表示生成网络固定时鉴别网络的对抗损失;λ(1)为设定值;K表示为清洗后的输入数据x(a)中的数据样本的数量;
yq表示二值数,当P(B-xq)≧ρ,则yp=1;反之,当P(B-xq)ρ,则yp=0;ρ为设定值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥工业大学,未经合肥工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310531272.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种结合非临床数据的药物不良反应预测方法和系统
- 下一篇:铁路货车主阀装配线
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置