[发明专利]针对压缩流量的多字符串匹配方法有效

申请号：	201710354909.0	申请日：	2017-05-18
公开（公告）号：	CN107277109B	公开（公告）日：	2020-03-31
发明（设计）人：	胡成臣;孙秀文;李昊	申请（专利权）人：	西安交通大学
主分类号：	H04L29/08	分类号：	H04L29/08;H04L29/06;G06K9/62
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	强宏超
地址：	710049 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	针对压缩流量多字匹配方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开一种针对压缩流量的多字符串匹配方法，核心部件是压缩流量字符串匹配引擎，它使用待匹配字符串进行构建，对压缩流量字节内容进行扫描、匹配，输出匹配结果；该引擎包括解码、匹配和字符串匹配自动机三个模块，以及处理过程所需的数据，即状态记录模块；本发明技术方案对压缩流量具有较高的多字符串匹配吞吐率，便于使用，且具有较好的扩展性。

【技术领域】

本发明属于网络技术领域，涉及压缩流量的多模式匹配方法。

【背景技术】

随着压缩技术在网络流量中的广泛应用，越来越多的Web服务器将HTTP 页面内容压缩后发送给浏览器。文献[1]指出2010年7月Alexa Top 1000的站点中有66％使用了HTTP压缩，而2016年10月的Top 500站点中，该比例已增长为95％[2]。

然而，许多基于深度包检测(Deep Packet Inspection，DPI)的工具通常采用多模式匹配的方式，识别流量中的特征，例如入侵检测系统(Intrusion Detection System，IDS)、入侵防御系统(Intrusion Prevention System，IPS)和防火墙等。这些工具面对压缩流量，通常有以下三种做法：

(1)Lazy：对于压缩的数据，直接丢弃，不进行处理。然而由于越来越多的流量使用压缩技术，致使采用该方式的工具放弃太多的内容，难以有效地进行DPI。

(2)Naive：也就是先将压缩流量进行完全解压，之后再对解压后的数据进行模式匹配。该方法技术成熟，实现简单，但是解压过程中对内存和CPU的需求无疑会成为整个匹配过程中的性能瓶颈。

(3)Patch：通过修改客户端的请求，告知服务端自身不接收压缩数据，从而强制服务端发送原始数据。这种方式相较于Naive来说，避免了流量解压过程的开销。但是破坏了客户端与服务端之间通信数据的完整性；而且使用未压缩的流量，也抛弃了HTTP设计压缩流量的初衷，不能减少对网络带宽的使用。

目前，有许多关于多模式匹配的相关专利，如文献[3,4,5,6]，但它们均没有涉及针对压缩流量的多模式匹配。一些针对HTTP压缩流量进行DPI的工作，其中，ACCH[7,8]是较为完善的一种，它通过先解压流量，之后利用解压过程中所保存的信息，在匹配过程跳过部分扫描字符，以加速模式匹配的过程。

ACCH实验结果表明：与Naive方式相比较，在多模式匹配算法性能上能够得到有效提升。然而，它没有充分利用HTTP压缩数据格式的特征，以至于压缩内容中出现完整匹配字符串之时，需要重复扫描。而且，算法需要人为指定部分参数，致使处理过程较为繁杂。

为进一步说明本发明的具体内容，首先对发明所涉及的技术和定义的名词进行介绍：

A)gzip/DEFLATE

gzip是HTTP1.1推荐的一种常用的内容编码方法，其中，根据Aleax Top 500 列表获取的449个页面中，428个使用压缩编码的页面均采用gzip作为其编码方法。而DEFLATE则是gzip所使用的压缩方法，它基于LZ77和哈夫曼编码分别实现压缩和编码。

图1显示的是gzip压缩过程示意图，原始文本为两行表示网页URL的字符串，经过LZ77压缩，将第二行中的“https://www.”编码为<12,25>。表示该压缩内容长度为12字节，可由当前位置向前偏移25字节(包括换行符)处拷贝得到。在这里，称<长度，距离>对，即<12,25>为编码字符串；称第一行中的“https://www.”为参考字符串，二者的位置关系示意图如图2所示。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安交通大学，未经西安交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710354909.0/2.html，转载请声明来源钻瓜专利网。

上一篇：显示控制装置及显示控制方法
下一篇：一种监控场景下融合上下文信息的行人位置检测方法

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]针对压缩流量的多字符串匹配方法有效

专利文献下载