[发明专利]一种通信报文的分类、训练方法和装置无效
申请号: | 201210110544.4 | 申请日: | 2012-04-13 |
公开(公告)号: | CN102684997A | 公开(公告)日: | 2012-09-19 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | H04L12/56 | 分类号: | H04L12/56 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 苏培华 |
地址: | 100081 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通信 报文 分类 训练 方法 装置 | ||
技术领域
本申请涉及信息处理技术领域,特别是涉及一种通信报文的分类方法和装置、一种报文分类器的训练方法和装置。
背景技术
海量用户使用各种网络设备和终端访问网络产生了海量的通信报文,这些海量的通信报文中存在各式各样的报文类型,为了能对这些通信报文进行深度的分析和挖掘,必须能正确的识别各类报文,也即对通信报文进行正确地分类。
报文分类也称为流分类。流是从一个源到一个目的的报文序列,是具有相同属性的报文的集合。组成流的最小单位是网络报文。现有的报文分类方法主要基于报头的一个或多个域,根据一定的策略或规则识别该报文所属的流。
现有的报文分类方法能够识别通信报文所属的流,且在网络中的很多领域得到了广泛应用。例如,为了限制经过加密或模糊之后的P2P(点对点,Peer to Peer)报文在网络中的传输,运营商需要识别网络中的采用各种特定协议加密的P2P报文流。
现有的报文分类方法通常仅能对局域网环境下的P2P报文等HTTP(超文本传输协定,HyperText Transfer Protocol)应用报文进行准确区分,也即,仅能识别到HTTP应用的粒度。但是,为了能对这些通信报文进行深度的分析和挖掘,需要将通信报文划分到比HTTP应用更为细致的层面,现有的报文分类方法不能满足上述细粒度需求。
总之,需要本领域技术人员迫切解决的一个技术问题就是:如何能够提高通信报文分类的细粒度。
发明内容
本申请所要解决的技术问题是提供一种通信报文的分类方法和装置、一种报文分类器的训练方法和装置,能够提高通信报文分类的细粒度。
为了解决上述问题,本申请公开了一种通信报文的分类方法,包括:
获取通信报文;
对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量;
根据报文分类器判别该特征向量所属的报文类别;其中,所述报文分类器为依据与用户行为类别相应的通信报文样本所构造的分类器。
优选的,所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤,包括:
通过分析所述通信报文的报文结构和报文内容中的一项或多项,提取与所述通信报文相应的特征向量。
优选的,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,包括:
对所述通信报文的报文内容进行语义分词处理,并依据语义分词结果提取相应的特征向量。
优选的,所述通过分析所述通信报文的报文内容,提取与所述通信报文相应的特征向量的步骤,包括:
针对所述通信报文提取相应的变动特征;
针对所述通信报文对应的用户标识,提取与所述通信报文相应的固定特征;
所述变动特征和固定特征组成所述通信报文的特征向量。
优选的,所述获取通信报文的步骤,包括:
对用户与网络间的通信报文进行存储,并从相应的存储装置中获得通信报文;或
从通信网关获得用户与网络间的通信报文。
优选的,所述方法还包括:
依据该特征向量所属的报文类别对相应的通信报文进行处理,所述处理包括记录、存储和丢弃处理中的一种或多种。
优选的,所述用户行为类别包括用户登录行为、用户搜索行为、用户点击行为、用户展示行为中的一种或多种。
优选的,在对所述通信报文进行特征提取,得到相应的特征向量的步骤前,所述方法还包括:
对所述通信报文进行数据清洗;
所述对所述通信报文进行特征提取,得到与所述通信报文相应的特征向量的步骤为,对数据清洗后的通信报文进行特征提取,得到与所述通信报文相应的特征向量。
另一方面,本申请还公开了一种报文分类器的训练方法,包括:
获取通信报文样本;
对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量;
依据所述特征向量对与用户行为类别相应的通信报文样本进行训练,得到报文分类器。
优选的,所述对所述通信报文样本进行特征提取,得到与所述通信报文样本相应的特征向量的步骤,包括:
通过分析所述通信报文样本的报文结构和报文内容中一项或多项,提取与所述通信报文样本相应的特征向量。
优选的,所述通过分析所述通信报文样本的报文内容,提取与所述通信报文样本相应的特征向量的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210110544.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于制造半导体器件的方法
- 下一篇:一种对中杆倾斜校正装置