[发明专利]一种互联网空间数据的搜索系统及方法在审

专利信息
申请号: 201810622122.2 申请日: 2018-06-15
公开(公告)号: CN108897804A 公开(公告)日: 2018-11-27
发明(设计)人: 姚茗亮;史闻博;翟润棣;汤梓寅;刘永辉;刘乃齐 申请(专利权)人: 东北大学秦皇岛分校
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
地址: 066000 河北*** 国省代码: 河北;13
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 存储模块 数据信息 搜索模块 搜索系统 互联网空间 中间件 主机 抓取 清洗模块 探测模块 清洗 存活 数据库 数据信息保存 读取效率 搜索设备 搜索 探测 存储 互联网
【说明书】:

发明公开了一种互联网空间数据的搜索系统及方法。该系统包括:探测模块、抓取模块、清洗模块、存储模块、搜索模块和中间件,所述探测模块用于探测互联网中存活的设备和主机,抓取模块用于获取存活的主机和设备的数据信息;清洗模块用于对所述数据信息进行清洗;存储模块用于将清洗后的数据信息保存到数据库;搜索模块用于从所述数据库中搜索设备或主机的数据信息;所述中间件连接所述存储模块和所述搜索模块,所述中间件用于将所述存储模块中的数据信息同步到所述搜索模块中。本发明提供的互联网空间数据的搜索系统及方法能够提高搜索系统的存储和搜索读取效率。

技术领域

本发明涉及互联网数据搜索领域,特别是涉及一种互联网空间数据的搜索系统及方法。

背景技术

在互联网空间中存在着无数的主机与终端设备,它们虽然每日产生巨量的数据信息,但是用户却不能对其有效的掌握,我们可以通过抓取这些数据并存入数据库,通过构建搜索系统来完成对这些数据信息的搜索,从而方便用户利用。

现有的搜索系统大多采用爬虫的方法爬取数据,但大多采用直接将数据导入搜索服务器,从而实现其搜索数据的功能。但是,由于现有技术中搜索系统的数据存储结构与搜索结构不明确,易产生阻塞。另外,由于互联网中不同数据类型的主机间关联程度较低,采用爬虫框架得到的数据量会远远小于实际存在的数据量,偏差过大。

发明内容

本发明的目的是提供一种互联网空间数据的搜索系统及方法,能够提高搜索系统的存储和搜索读取效率。

为实现上述目的,本发明提供了如下方案:

一种互联网空间数据的搜索系统,所述系统包括:探测模块、抓取模块、清洗模块、存储模块、搜索模块和中间件,所述探测模块用于探测互联网中存活的主机和设备,抓取模块用于获取存活的主机和设备的数据信息;清洗模块用于对所述数据信息进行清洗;存储模块用于将清洗后的数据信息保存到数据库;所述中间件连接所述存储模块和所述搜索模块,所述中间件用于将所述存储模块中的数据索引同步到所述搜索模块中;搜索模块用于从所述数据索引搜索中搜索设备或主机的数据信息。

可选的,所述中间件为Monstache模块。

可选的,所述存储模块为MongoDB存储服务器。

可选的,所述所述搜索模块为ElasticSearch搜索服务器。

本发明还提供了一种互联网空间数据的搜索方法,所述方法应用于如权利要求1-4中任一项所述的互联网空间数据的搜索系统,所述方法包括:

探测互联网中存活的各种主机和设备;

获取存活的主机和设备的数据信息;

对所述数据信息进行清洗;

将清洗后的数据信息保存到数据库;

采用中间件将数据库中的数据信息的索引同步于搜索服务器ElasticSearch;

采用所述搜索服务器ElasticSearch对同步的数据信息的索引搜索主机或设备的数据信息。

可选的,所述探测互联网中存活的各种设备和主机,具体包括:

扫描互联网中的主机或设备;

向扫描到的主机或设备发出握手请求;

根据所述主机或设备对握手请求的响应确定所述主机或设备是否存活。

可选的,所述获取存活的主机和设备的数据信息,具体包括:

采用zmap与zgrab的集群方法并行获取存活的所述主机或设备的数据信息,所述数据信息包括所述主机或设备在互联网空间展示的内容、所述主机或设备的组件信息和地理信息。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学秦皇岛分校,未经东北大学秦皇岛分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810622122.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top