[发明专利]LTE网络中的异常值检测方法及系统有效
申请号: | 201610970187.7 | 申请日: | 2016-10-28 |
公开(公告)号: | CN106572493B | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 吴冬华;宇特·亚历克西;石路路 | 申请(专利权)人: | 南京华苏科技有限公司 |
主分类号: | H04W24/04 | 分类号: | H04W24/04;H04W24/08 |
代理公司: | 江苏纵联律师事务所 32253 | 代理人: | 陈娜 |
地址: | 210000 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种LTE网络中的异常值检测方法及系统,通过将实测数据划分为训练集和测试集,在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群,根据参数值和聚类的结果,计算每个数据点的似然值,依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并分到各区域中,从而找到测试集中的异常值。该方法及系统,在模型中增加时间轴可以更好地理解数据点在时间上的变化,进而可从多个点组成的序列中发掘多个异常值,而不是单个异常值。该方法可快速地检测出异常值,在某个异常值出现后可提前发现,且误差率很低。 | ||
搜索关键词: | 异常值检测 集群 误差率 测试 聚类算法 模型应用 实测数据 异常区域 正常区域 中间区域 测试集 时间轴 数据点 训练集 聚类 预警 报警 地理 检测 发现 | ||
【主权项】:
1.一种LTE网络中的异常值检测方法,其特征在于:包括以下步骤,S1、加载实测数据,实测数据根据预先选定的指标产生,且具有对应的时间,将所有的数据划分为训练集和测试集,测试集和训练集相互独立,但包含相同的变量;S2、在训练集中定义集群和参数,由聚类算法找到各数据点所属的集群;S3、根据参数值和聚类的结果,计算每个数据点的似然值,在推导的模型下,一个数据点的似然值就是其概率密度;S4、依据设定的预警阈值、报警阈值将似然值分成异常区域、中间区域和正常区域;S5、将已经计算出的模型应用在测试集中,每个数据点的似然值均被计算出来,并且这些数据点被分到异常区域、中间区域和正常区域三个区域中,从而找到测试集中的异常值;步骤S2中,聚类算法采用基于高斯概率的潜在语义分析模型,即GPLSA算法,已知观测值集合W和时间轴集合D,观测值集合W中的每个数据点都有时间轴集合D中的一个数据点与其对应;GPLSA算法对所有的集群k、每个时间的水平对应的值s,近似估计出未知参数mk、∑k和αk,s,mk表示第k个集群所对应的均值,∑k表示第k个集群所对应的协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;进而得出每个数据点最可能的集群和未知参数mk、∑k和αk,s的似然估计;GPLSA算法具体为:S21、对所有的k、s,当t=1时,t表示进行迭代的次数,对参数
αk,s赋予初值,
表示第k个集群的均值初始值,
表示第k个集群的初始协方差矩阵,αk,s表示时间对于水平为s、集群为k时所对应的概率;S22、对所有的k、i,当Wi=wi,Di=di时,wi、di分别表示第i个数据点的观测值、时间值,计算观测值Zi的组别为k时即Zi=k的概率和参数![]()
其中,i为数据记录数,t表示进行的第t次迭代,
表示在第k次迭代中,第i个观测值属于集群k的概率;f表示在第k个集群中,均值为
协方差矩阵为
进行第t‑1次迭代时观测值为wi的概率;
表示第k个集群,时间值是di,进行第t‑1次迭代的概率;
表示第k个集群的第t‑1次迭代时均值初始值;
表示第k个集群的第t‑1次迭代时方差初始值;S23、对于所有的k、s,计算![]()
其中,#Es表示集合Es的长度;
表示概率值
的数学期望;
表示第j次迭代,下标为j的所有观测值Es(j)属于集群k的概率;Es(j)表示下标j的集合;S24、对于所有的k、s,更新概率αk,s:
其中,
表示概率值
的数学期望;
表示属于集群1时的数学期望;S25、对于所有的k,更新均值![]()
其中,wi表示第i个数据的观测值;
表示在第k次迭代中,第i个观测值属于集群k的概率;S26、对于所有的k,更新协方差矩阵:
其中,′表示转置,wi表示第i个数据的观测值;mk表示第K个集群所对应的均值;
表示在第k次迭代中,第i个观测值属于集群k的概率;S27、令t=t+1并重复步骤S22‑S27,直到某个时间T收敛,在该时间,估计出参数;S28、对于每个i,选择的k是使
最大化的k,
表示在第k次迭代中,第i个观测值属于集群k的概率;S29、对于每个i,估计的参数点的似然函数是:
其中,P(di)表示第i个数据点时间水平为di的概率;
表示在第T次迭代中,集群1的均值;
表示在第T次迭代中,集群1的协方差矩阵;
表示在第T次迭代中,属于集群1,时间水平为di的概率;GPLSA算法中,假设一:假设每个观测值来自于以1‑K为标记的组,记录所属组别被标记为Z=(zi)i,每个数据点的组别假设为确定的,但是未知的,定义该集合为潜在变量,将所有属于第一组的点称为集群1,以此类推,直至集群K;假设二:观测值和潜在变量的联合分布可被分解为基于样本的产品;已知观测值zi的组别为k,假设观测值wi来自于一个服从均值为向量mk,方差矩阵为∑k的高斯分布;假设三:GPLSA算法引入潜在组和时间轴之间的依存关系,已知每个时间值di的水平对应的值s,相关的潜在值属于k的概率与参数αk,s成比例,以下式(1)将αk,s改写为方程式,其中大写字母表示随机变量:αk,s:=P(Zi=k|Di=s) 式(1);假设四:潜在变量、观测值和时间轴是条件独立的,即:P(Wi=w|Di=s,Zi=k)=P(Wi=w|Zi=k) 式(2)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京华苏科技有限公司,未经南京华苏科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610970187.7/,转载请声明来源钻瓜专利网。