[发明专利]一种互联网空间数据的搜索系统及方法在审
申请号: | 201810622122.2 | 申请日: | 2018-06-15 |
公开(公告)号: | CN108897804A | 公开(公告)日: | 2018-11-27 |
发明(设计)人: | 姚茗亮;史闻博;翟润棣;汤梓寅;刘永辉;刘乃齐 | 申请(专利权)人: | 东北大学秦皇岛分校 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 066000 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 存储模块 数据信息 搜索模块 搜索系统 互联网空间 中间件 主机 抓取 清洗模块 探测模块 清洗 存活 数据库 数据信息保存 读取效率 搜索设备 搜索 探测 存储 互联网 | ||
1.一种互联网空间数据的搜索系统,其特征在于,所述系统包括:探测模块、抓取模块、清洗模块、存储模块、搜索模块和中间件,所述探测模块用于探测互联网中存活的主机和设备,抓取模块用于获取存活的主机和设备的数据信息;清洗模块用于对所述数据信息进行清洗;存储模块用于将清洗后的数据信息保存到数据库;所述中间件连接所述存储模块和所述搜索模块,所述中间件用于将所述存储模块中的数据索引同步到所述搜索模块中;搜索模块用于从所述数据索引搜索中搜索设备或主机的数据信息。
2.根据权利要求1所述的互联网空间数据的搜索系统,其特征在于,所述中间件为Monstache模块。
3.根据权利要求1所述的互联网空间数据的搜索系统,其特征在于,所述存储模块为MongoDB存储服务器。
4.根据权利要求1所述的互联网空间数据的搜索系统,其特征在于,所述所述搜索模块为ElasticSearch搜索服务器。
5.一种互联网空间数据的搜索方法,其特征在于,所述方法应用于如权利要求1-4中任一项所述的互联网空间数据的搜索系统,所述方法包括:
探测互联网中存活的各种主机和设备;
获取存活的主机和设备的数据信息;
对所述数据信息进行清洗;
将清洗后的数据信息保存到数据库;
采用中间件将数据库中的数据信息的索引同步于搜索服务器ElasticSearch;
采用所述搜索服务器ElasticSearch对同步的数据信息的索引搜索主机或设备的数据信息。
6.根据权利要求5所述的互联网空间数据的搜索方法,其特征在于,所述探测互联网中存活的各种设备和主机,具体包括:
扫描互联网中的主机或设备;
向扫描到的主机或设备发出握手请求;
根据所述主机或设备对握手请求的响应确定所述主机或设备是否存活。
7.根据权利要求5所述的互联网空间数据的搜索方法,其特征在于,所述获取存活的主机和设备的数据信息,具体包括:
采用zmap与zgrab的集群方法并行获取存活的所述主机或设备的数据信息,所述数据信息包括所述主机或设备在互联网空间展示的内容、所述主机或设备的组件信息和地理信息。
8.根据权利要求5所述的互联网空间数据的搜索方法,其特征在于,所述对所述数据信息进行清洗,具体包括:
将所述数据信息读入内存;
删除存在404或ERROR数据;
删除匹配字段信息为Data:{}的数据;
删除包含数组的数据。
9.根据权利要求5所述的互联网空间数据的搜索方法,其特征在于,所述将清洗后的数据信息保存到数据库,具体包括:
采用多线程读取清洗后的数据信息,并调用数据导入功能,将读取的数据信息写入数据库,所述数据信息格式为json格式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学秦皇岛分校,未经东北大学秦皇岛分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810622122.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:育儿注意事项推荐方法及推荐系统
- 下一篇:一种专利文本自动分类方法