[发明专利]数据流预测方法及装置有效

专利信息
申请号: 201210155437.3 申请日: 2012-05-18
公开(公告)号: CN102710616A 公开(公告)日: 2012-10-03
发明(设计)人: 李军;张鹏;郭莉;刘萍;方滨兴 申请(专利权)人: 中国科学院信息工程研究所
主分类号: H04L29/06 分类号: H04L29/06;H04L12/26
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 杨立
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据流 预测 方法 装置
【说明书】:

技术领域

发明涉及通信领域,尤其涉及一种数据流预测方法及装置。

背景技术

近年来,随着越来越多互联网业务(例如超文本传送协议HTTP、简单邮件传输协议SMTP、文件传输协议FTP、微软网络服务MSN、QQ、BT等)的出现,网络安全面临的挑战愈发严峻。垃圾邮件、垃圾短信、色情网站、网络攻击等现象每天都给人们的生活带来极大的困扰。因此,数据流的内容过滤作为网络内容安全的核心问题,成为近年来数据流研究的热点话题。由于数据流中包含着大量的文本内容,因此数据流过滤(查询)的重点在于文本的处理。

目前对数据流过滤采取文本匹配的方法,例如如下技术方案:基于AC自动机的串扫描算法来完成大规模网关的内容检测;融合多种串匹配技术实现具有环境感知能力的匹配框架,在真实的数据集上明显提升了性能。总的来说,这些方法通过预先输入一些关键串来完成对文本数据流的信息扫描和过滤。尽管大量的实验和系统均证明了该算法的有效性,但是一种可能的不足就是该方法无法对文本数据流进行深层语义分析,导致数据流内容检测的误判率偏高。

随着数据流挖掘算法的兴起,数据流上的分类预测模型被应用在网络流的实时判别中。对比于经典的串匹配算法,数据流的分类预测模型可以深入语义层进行内容分析,使得判别结果更加准确和合理。早期的流分类预测模型通常离线训练一个分类模型,然后利用这个模型来实时判别每个流数据项的类别。该方法虽然简单,但是单一的分类模型在预测精度上往往不够令人满意。因此,最新的研究都采用多模型集成预测,它通过集成多个分类器对每个数据流项进行综合判别。虽然该方法可以提高判别精度,但是其缺点是判别的时间开销很大,往往难以跟上数据流本身的速度。尤其是当集成模型中基础分类器为SVM(Support Vector Machine,支持向量机)的情况下,其预测速度随着分类器的增加呈现线性增长,即使在只有两个SVM分类器的集成模型中,对于每分钟到达的190W条数据流元组,完成预测的时间大约需要1个半小时左右,这远远达不到实际的性能要求。

同时,由于传统的倒排索引的对象都是文档集,用于加速对文档的获取而构建;而SVM集成模型的索引对象是分类器,操作(添加、删除、更新)是以分类器为单位进行,因此,传统的倒排索引不适合数据流环境下的集成模型在线预测。

由上可见,当前对数据流的管理方法是基于串匹配技术的文本扫描策略,尽管该方法处理速度快,但是其存在精度不高的缺点。近年来,随着互联网业务规模的持续增长,该缺点引发的问题越来越引起重视。为提升数据流内容管理的精度,一种可能的思路是将数据流管理作为流分类问题,利用准确度较高的集成模型来对数据流进行精准预测,但是现有的方法其预测开销随着分类器规模的增加而呈现线性增长,因此,无法直接应用到大规模数据流处理中。

发明内容

本发明所要解决的技术问题是提供一种数据流预测方法及装置,提高预测速度。

为解决上述技术问题,本发明提出了一种数据流预测方法,包括:

根据样本数据更新集成模型索引,所述集成模型索引用于存储关键词与支持向量集合之间的映射关系,所述支持向量集合中的支持向量为所述集成模型中支持向量机SVM分类器的支持向量;

对输入文本进行分词,得到该输入文本的关键词,所述输入文本为待测数据流;

根据更新后的集成模型索引检索包含所述关键词的支持向量集合,以及该支持向量集合中的支持向量所在SVM分类器的信息;

用检索到的支持向量集合中的所有支持向量对所述输入文本进行预测。

进一步地,上述方法还可具有以下特点,所述集成模型索引包含倒排表和分类器信息表两部分,所述分类器信息表用于存储SVM集成模型包含的分类器的信息,所述倒排表用于存储包含关键词的支持向量集合。

进一步地,上述方法还可具有以下特点,所述根据样本数据更新集成模型索引包括:

从所述样本数据中抽取样本组成训练样本集,根据该训练样本集训练出SVM分类器;

按照分类器包含的支持向量提取所述SVM分类器,根据支持向量包含的关键词,将所述SVM分类器包含的支持向量编排到集成模型索引的倒排表中;

将所述SVM分类器的信息置于所述集成模型索引的分类器信息表中。

进一步地,上述方法还可具有以下特点,所述倒排表用哈希表来实现,所述根据样本数据更新集成模型索引还包括:

在哈希表中槽位的冲突比超过设定值时调整所述哈希表来重构倒排表。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210155437.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top