[发明专利]针对压缩流量的多字符串匹配方法有效
申请号: | 201710354909.0 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107277109B | 公开(公告)日: | 2020-03-31 |
发明(设计)人: | 胡成臣;孙秀文;李昊 | 申请(专利权)人: | 西安交通大学 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06;G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 强宏超 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 压缩 流量 多字 匹配 方法 | ||
本发明公开一种针对压缩流量的多字符串匹配方法,核心部件是压缩流量字符串匹配引擎,它使用待匹配字符串进行构建,对压缩流量字节内容进行扫描、匹配,输出匹配结果;该引擎包括解码、匹配和字符串匹配自动机三个模块,以及处理过程所需的数据,即状态记录模块;本发明技术方案对压缩流量具有较高的多字符串匹配吞吐率,便于使用,且具有较好的扩展性。
【技术领域】
本发明属于网络技术领域,涉及压缩流量的多模式匹配方法。
【背景技术】
随着压缩技术在网络流量中的广泛应用,越来越多的Web服务器将HTTP 页面内容压缩后发送给浏览器。文献[1]指出2010年7月Alexa Top 1000的站点中有66%使用了HTTP压缩,而2016年10月的Top 500站点中,该比例已增长为95%[2]。
然而,许多基于深度包检测(Deep Packet Inspection,DPI)的工具通常采用多模式匹配的方式,识别流量中的特征,例如入侵检测系统(Intrusion Detection System,IDS)、入侵防御系统(Intrusion Prevention System,IPS)和防火墙等。这些工具面对压缩流量,通常有以下三种做法:
(1)Lazy:对于压缩的数据,直接丢弃,不进行处理。然而由于越来越多的流量使用压缩技术,致使采用该方式的工具放弃太多的内容,难以有效地进行DPI。
(2)Naive:也就是先将压缩流量进行完全解压,之后再对解压后的数据进行模式匹配。该方法技术成熟,实现简单,但是解压过程中对内存和CPU的需求无疑会成为整个匹配过程中的性能瓶颈。
(3)Patch:通过修改客户端的请求,告知服务端自身不接收压缩数据,从而强制服务端发送原始数据。这种方式相较于Naive来说,避免了流量解压过程的开销。但是破坏了客户端与服务端之间通信数据的完整性;而且使用未压缩的流量,也抛弃了HTTP设计压缩流量的初衷,不能减少对网络带宽的使用。
目前,有许多关于多模式匹配的相关专利,如文献[3,4,5,6],但它们均没有涉及针对压缩流量的多模式匹配。一些针对HTTP压缩流量进行DPI的工作,其中,ACCH[7,8]是较为完善的一种,它通过先解压流量,之后利用解压过程中所保存的信息,在匹配过程跳过部分扫描字符,以加速模式匹配的过程。
ACCH实验结果表明:与Naive方式相比较,在多模式匹配算法性能上能够得到有效提升。然而,它没有充分利用HTTP压缩数据格式的特征,以至于压缩内容中出现完整匹配字符串之时,需要重复扫描。而且,算法需要人为指定部分参数,致使处理过程较为繁杂。
为进一步说明本发明的具体内容,首先对发明所涉及的技术和定义的名词进行介绍:
A)gzip/DEFLATE
gzip是HTTP1.1推荐的一种常用的内容编码方法,其中,根据Aleax Top 500 列表获取的449个页面中,428个使用压缩编码的页面均采用gzip作为其编码方法。而DEFLATE则是gzip所使用的压缩方法,它基于LZ77和哈夫曼编码分别实现压缩和编码。
图1显示的是gzip压缩过程示意图,原始文本为两行表示网页URL的字符串,经过LZ77压缩,将第二行中的“https://www.”编码为<12,25>。表示该压缩内容长度为12字节,可由当前位置向前偏移25字节(包括换行符)处拷贝得到。在这里,称<长度,距离>对,即<12,25>为编码字符串;称第一行中的“https://www.”为参考字符串,二者的位置关系示意图如图2所示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710354909.0/2.html,转载请声明来源钻瓜专利网。