[发明专利]一种基于LTE信令的数据过滤处理方法有效
申请号: | 201510694999.9 | 申请日: | 2015-10-21 |
公开(公告)号: | CN105306296B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 窦慧晶;卞婷婷 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于LTE信令的数据过滤处理方法。具体为对LTE移动核心高速网络系统进行大数据的过滤处理,采用简单过滤和内容深层过滤相结合的四级混合过滤模式。首先通过五元组进行简单数据预处理,然后根据KNN文本分类法确定数据源性质,再采用优化的AdaBoost算法实现基于内容的三级信息过滤,最终实现一个完整的数据过滤处理。与传统的过滤方法相比,本方法解决了传统的LTE系统对数据过滤方面遗失和筛选错误的问题,具有较好的稳定性和准确率,对于数据的过滤有很好鲁棒性。本发明可直接应用于网络安全、网络信息数据处理、大数据分析等领域。 | ||
搜索关键词: | 一种 基于 lte 数据 过滤 处理 方法 | ||
【主权项】:
1.一种基于LTE信令的数据过滤处理方法,其特征在于:本方法采用五元组简单过滤方法进行数据预处理,然后采用KNN文本分类方法确定源信息的性质,最后通过优化的AdaBoost方法得到数据与根据聚类分析得到的样本进行特征匹配,最终实现深层内容过滤;其具体步骤包括:1.五元组简单过滤;首先对网络数据进行简单的一级过滤———五元组过滤;定义变量SIP、DIP、SP、DP、PT分别表示五元组过滤中的源IP地址、目的IP地址、源端口号、目的端口号和传输协议类型,它们构成了五元组的基本元素;在一次会话中,根据过滤策略确定掩码SIP_MASK、DIP_MASK、SP_MASK、DP_MASK和PT_MASK的值,这些值组成策略控制列表PCL,从而进行信息一级过滤;2.KNN文本分类方法确定源性质;将经过五元组过滤处理后的数据称为新文本,将其与给定的训练文本集中的文本进行KNN文本分类计算,对新的输入实例即新文本,在训练文本集中找到与该实例最邻近的K个实例,则这K个实例的多数所属于的那个类,就是新文本的类;也就是说,把新文本和训练文本都看作是一个N维向量,计算新文本与训练文本集中每个文本的相似度,找出K个最相似的样本,通过加权距离和训练文本所属的类别来确定新文本的类别;KNN算法过程描述如下:1)对于新文本及训练文本,根据特征词形成新文本向量和训练文本向量;根据传统的向量空间模型,文本信息被形式化为特征空间中的加权特征向量;即D=D(T1,W1;T2,W2;…;Tn,Wn),根据特征词确定新文本及训练文本的向量表示,T1,W1;T2,W2;…;Tn,Wn分别为每个文本信息形式化后的横纵特征向量;2)计算新文本与训练文本集中每个文本的文本相似度.计算公式为:
其中di为新文本的特征向量,dj为第j类的中心向量,M为特征向量的维数,Wk为向量的第k维;对于k值,因为KNN方法被看作是一种从样本中估计后验概率P(wi|x)的方法,所以为了得到可靠的估计,k值需越大越好,这样才可以提高估计的准确性,但另一方面,又希望这k个邻近点距离新文本越近越好,记新文本后验概率为P(wi|x1),只有当这k个邻近点距离新文本越近时,P(wi|x1)才会尽可能的逼近P(wi|x),以往都是根据人们的个人经验来确定k值,所以经常出现估计不准确的情况,若k值选择的过小,得到的邻近数会过小,则降低分类精度,若k值选择的过大,则容易增加噪声数据降低分类准确性,故现通过大量的实验证明,当k值取数据库中的所有文本个数时,新文本的分类结果为全局最优解;3)在新文本的k个邻居中,依次计算每类的权重,
其中
为新文本的特征向量,
为相似度计算公式,
为数据源性质;Cj为文本的类别,
为文本之间的距离向量;4)比较类的权重,将文本分到权重最大的那个类别中去;综上所述,数据通过KNN文本分类的方法对数据信息进行二级过滤,确定数据源的性质;3.优化的AdaBoost方法进行深层内容过滤;本方法提出基于AdaBoost算法的最小风险贝叶斯深层过滤算法是以AdaBoost算法作为分类器的训练框架,用最小风险贝叶斯分类算法代替AdaBoost算法中的弱分类器,作为AdaBoost的分类器,达成两个算法的结合,即基于AdaBoost的最小风险贝叶斯深层过滤算法;AdaBoost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器即弱分类器,然后将这些弱分类器集合起来,最终构成一个最强的最终分类器即强分类器;其算法是根据改变数据分布来实现的,根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确性来确定每个样本的权值,将修改过的最新权值送到下层分类器中进行训练,最后将每次训练后得到的分类器进行融合,输出最终的最强分类器;若训练样本集为:S={(x1,y1),(x2,y2),……,(xi,yi),xi∈X,yi∈Y},X,Y分别对应于正例样本和负例样本,M为训练的最大循环次数,分类器的错误率记为εm,最小错误率记为
在AdaBoost原算法中,通过一个加权的多数表决方法来整合全部决策以产生最终的决策:
其中Pm(x)为分类器决策函数,AdaBoost算法可以对学习得到的弱分类器的错误进行适当整合,每一次迭代都要对权重进行更新,减小弱分类器分类效果较好的数据的权重,增大弱分类器分类效果较差的数据的权重,最终的分类器是弱分类器的加权平均;贝叶斯分类算法是通过某对象的先验概率模型,利用贝叶斯公式计算出其后验概率;即对象源属于哪一类的主题,选择具有最大后验概率的类作为对象源所属的主题;通过训练源数据集合,由贝叶斯理论得到每个数据信息在不同类的概率大小,构造出贝叶斯模型;朴素贝叶斯是贝叶斯分类模型中误差率最小的,并且其所需估计参数很少,实现算法简单;最小风险贝叶斯分类算法就是以贝叶斯和朴素贝叶斯为基础来解决错误率问题,是最小错误率意义上的最优化;在本方法中,若数据被系统判定为“敏感数据”当作垃圾数据过滤掉,但其恰恰又是用户所需要的内容,则会给用户造成很大的损失;通过最小风险贝叶斯分类方法确定数据源的主题,按照不同的主题过滤策略进行过滤,把所有分类错误都考虑进去,会很大程度上降低误判的风险;已知P(ωi),P(X|ωi),i=1,2,……,c,及待识别的X即待过滤的网络数据包的情况下,根据贝叶斯公式来计算出后验概率,
其中P(ωi)是先验概率,是由以往用户对网络数据的需求分析所得到的;P(ωj|X)是后验概率,是在得到信息X之后再重新加以更正的概率,P(X|ωi)是根据以往用户对网络数据的需求经验来判断收到的待识别X是否为垃圾网络数据的概率;记数据损失为α,将决策判定规则定义为:1)当网络数据是垃圾数据时,将其判断为垃圾数据不会造成任何损失,α=0;2)当把垃圾网络数据判定为合法数据时,则损失α=0;3)当把用户所需网络数据判定为垃圾数据时,则造成的损失是不可估量的,0<α<∞;根据计算后得出的后验概率和设定的决策规则,按以下公式计算出采取di,i=1,2,……a的条件风险:
考虑到数据被误判后,要将损失α→0降到最小,故对之前得到的d个条件风险值R(di|X),i=1,2,……,d进行比较,从中找出使条件风险最小的决策,记为dk,dk就是最小风险贝叶斯分类决策;本方法优化的AdaBoost方法如下:以矩阵的形式输入网络数据,初始化权重
执行循环m=1,2,……,M,将ωi的值代入AdaBoost框架中,通过最小风险贝叶斯分类器进行训练,得到假设P:X∈yi,将分类器对整个数据集进行遍历,并标记P分类正确的样本和分类错误的样本,根据总体样本的数量来判断错误样例个数,计算P的分类错误率αm,将分类错误率αm更新,得到训练样本的权值为
继续开始下一轮的循环,直至M次循环结束;通过多次循环,基于AdaBoost的最小风险贝叶斯分类算法可归结出M个分类器Pm,经过算法得到:
最终P(x)就是基于内容的深层过滤算法中经过M次学习后所得到的最终分类器。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510694999.9/,转载请声明来源钻瓜专利网。
- 上一篇:网络集群实时监控方法和系统
- 下一篇:虚机迁移时的邻节点时延检测方法及系统
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置