[发明专利]一种海量数据处理方法及系统有效
申请号: | 201611046999.9 | 申请日: | 2016-11-23 |
公开(公告)号: | CN106776794B | 公开(公告)日: | 2020-10-27 |
发明(设计)人: | 朱立业 | 申请(专利权)人: | 北京锐安科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 胡彬;邓猛烈 |
地址: | 100044 北京市海淀区西小口*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 数据处理 方法 系统 | ||
本发明公开了一种海量数据处理方法及系统,该方法包括:获取用户输入的关键词;根据预设的编码方式对所述关键词编码后得到对应的第一数据;获取海量数据;对所述海量数据按照对应的解码方式解码后得到对应的第二数据;根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。基于上述方法及系统,通过实现数据处理工作的自动化,可以高效的从海量数据中提取到各种经过处理的有价值信息,完成大量的重复检索分析工作,保证了分析质量并能够吸纳分析经验,不断提高分析的准确性,弥补了不同水平人员的分析知识盲区和差异。
技术领域
本发明实施例涉及自动化技术领域,尤其涉及一种海量数据处理方法及系统。
背景技术
我们日常工作环境中存在大量历史积累的网络数据包,实际网络环境中存在大量实时网络数据流,这些数据中随时会出现我们想要的信息。如何高效提取这些信息以及这些信息的上下文成为很多人迫切的需求,而且这些信息可能以各种形式存在原始报文中,比如以unicode+base64编码、然后经过zlib压缩,比如经过md5加密,要想从海量数据中检测到这些信息及其上下文,就需要进行协议解析。而协议数据分析工作是协议解析的基础,协议分析是否全面、深入直接影响了协议解析的质量。
现有的全人工的协议分析工作方式存在量大重复效率低、人员的频繁更替无法保证分析质量、分析经验无法有效积累并传承等问题。
发明内容
本发明提供一种海量数据处理的方法及系统,以实现数据处理工作的自动化。
为达到此目的,本发明实施例采用以下技术方案:
一种海量数据处理方法,包括:
获取用户输入的关键词;
根据预设的编码方式对所述关键词编码后得到对应的第一数据;
获取海量数据;
对所述海量数据按照对应的解码方式解码后得到对应的第二数据;
根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。
进一步地,所述方法,还包括:
将所述匹配结果进行关联分析,得到含关联信息的匹配结果;
将所述含关联信息的匹配结果根据数据上传格式和/或数据下载格式输出成相关格式文件。
进一步地,所述方法,在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,还包括:
将所述海量数据按各自协议格式解析到tcp、udp层并存储。
进一步地,所述方法,在对所述海量数据按照对应的解码方式解码后得到对应的第二数据之前,还包括:
将解析后的数据按流进行流量统计和应用协议识别。
进一步地,所述方法,还包括:
通过学习以往的模板编写经验,对每个匹配结果进行统计排名,从一个关键字的多个匹配结果中选择统计排名靠前的几个。
相应地,本发明还公开一种海量数据处理系统,包括:
关键词获取模块,用于获取用户输入的关键词;
关键词编码模块,用于根据预设的编码方式对所述关键词编码后得到对应的第一数据;
数据获取模块,用于获取海量数据;
数据解码模块,用于对所述海量数据按照对应的解码方式解码后得到对应的第二数据;
结果输出模块,用于根据所述编码方式与对应的解码方式匹配所述第一数据和第二数据,并输出匹配结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锐安科技有限公司,未经北京锐安科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611046999.9/2.html,转载请声明来源钻瓜专利网。