[实用新型]一种用于IDC有害信息监测平台的爬虫系统有效

专利信息
申请号: 201520248413.1 申请日: 2015-04-23
公开(公告)号: CN204515769U 公开(公告)日: 2015-07-29
发明(设计)人: 彭光辉;屈立笳;陶磊;苏礼刚;林伟 申请(专利权)人: 成都国腾实业集团有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 成都金英专利代理事务所(普通合伙) 51218 代理人: 袁英
地址: 610041 四川省成都*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 idc 有害信息 监测 平台 爬虫 系统
【说明书】:

技术领域

实用新型涉及数据采集技术领域,特别是涉及一种用于IDC有害信息监测平台的爬虫系统。

背景技术

网络爬虫,它不是昆虫的名称,而是人们为了形象描述计算机程序在网络不断通过定制的入口网址去提取网页的链接,并根据这些链接再度抓取提取更深的其它未知的链接,以此下去,将这样的程序抓取形为形容成类似爬虫似的动作,称之为爬虫,爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。为了实现网络爬虫的功能,需要一个系统来实现。

实用新型内容

本实用新型的目的在于克服现有技术的不足,提供一种用于IDC有害信息监测平台的爬虫系统,可以很方便的扩充存储空间,系统中的控制器结构简单、散热效果良好。

本实用新型的目的是通过以下技术方案来实现的:一种用于IDC有害信息监测平台的爬虫系统,它包括网页抓取装置、控制器和计算机,所述的控制器包括设备盒体,设备盒体上设置有盒盖,设备盒体内设置有接插式控制电路板,接插式控制电路板上设置有插槽,插槽上连接有通讯装置、URL抽取装置、URL分析装置和数据抽取装置,计算机的输出端通过通讯装置与URL抽取装置的输入端连接,URL抽取装置的输出端与URL分析装置的输入端连接,URL分析装置的输出端分别与数据抽取装置和网页抓取装置的输入端连接,数据抽取装置与网页抓取装置连接进行数据交换,网页抓取装置的输出端与计算机的输入端连接。

所述的通讯装置上设置有RS232接口、USB接口、RJ45接口、wifi模块、3G模块和蓝牙模块。

所述的设备盒体内设置有风扇。

所述的设备盒体内设置有卡槽,所述的插接式控制电路板卡装在卡槽内。

所述的盒盖上设置有挂钩。

所述的设备盒体四侧均设置有椭圆孔。

本实用新型的有益效果是:本实用新型中数据存储在计算机,可以很方便的扩充存储空间;此外,本实用新型中的控制器结构简单,内部的插接式控制电路板卡装在设备盒体内,连接牢固;设备盒体内设置有风扇,设备盒体四侧均设置有椭圆孔,散热效果良好;盒盖上设有挂钩,可以将控制器根据需要挂在某处,使得布线更简洁。

附图说明

图1为本实用新型一种用于IDC有害信息监测平台的爬虫系统的结构示意图;

图中,1-网页抓取装置,2-数据抽取装置,3-插接式控制电路板,4-URL分析装置,5-风扇,6-URL抽取装置,7-控制器,8-蓝牙模块,9-3G模块,10-wifi模块,11-通讯装置,12-RJ45接口,13-USB接口,14-RS232接口,15-计算机。

具体实施方式

下面结合附图进一步详细描述本实用新型的技术方案,但本实用新型的保护范围不局限于以下所述。

如图1所示,一种用于IDC有害信息监测平台的爬虫系统,它包括网页抓取装置1、控制器7和计算机15,所述的控制器7包括设备盒体,设备盒体上设置有盒盖,设备盒体内设置有接插式控制电路板3,接插式控制电路板3上设置有插槽,插槽上连接有通讯装置11、URL抽取装置6、URL分析装置4和数据抽取装置2,计算机15的输出端通过通讯装置11与URL抽取装置6的输入端连接,URL抽取装置6的输出端与URL分析装置4的输入端连接,URL分析装置4的输出端分别与数据抽取装置2和网页抓取装置1的输入端连接,数据抽取装置2与网页抓取装置1连接进行数据交换,网页抓取装置1的输出端与计算机15的输入端连接。

所述的通讯装置11上设置有RS232接口14、USB接口13、RJ45接口12、wifi模块10、3G模块9和蓝牙模块8。

所述的设备盒体内设置有风扇5,用于提高散热能力。

所述的设备盒体内设置有卡槽,所述的插接式控制电路板卡装在卡槽内。

所述的盒盖上设置有挂钩。

所述的设备盒体四侧均设置有椭圆孔。

所述的设备盒体内还设置有电源模块,电源模块分别与风扇5、通讯装置11、URL抽取装置6、URL分析装置4和数据抽取装置2电连接。

本实用新型的工作原理为:URL抽取装置接收计算机发送过来的种子队列,并将种子队列的URL地址代表的网页进行分类,分为Deep Web网页和数据密集型(Data-intensive)网页,然后分别对两种页面进行抽取,找到各个类型对应的数据抽取装置,再把URL地址和相应的数据抽取装置行进对应记录,并把记录发送给URL分析装置。URL分析装置接收URL抽取装置发送过来的URL地址和对应的数据抽取装置记录,并对URL地址进行查重,然后将没有重复采集的URL地址排进队列,并将队列中URL地址和对应的数据抽取器信息发送给数据抽取装置和网页抓取装置。数据抽取装置对Deep Web网页进行页面分析并提取页面中地URL 形成新的URL,相当于表单提交后的对象,传递给网页抓取装置。网页抓取装置接收数据抽取装置发送过来的URL地址,进行网页的抓取,并对采集到的页面进行分析,符合要求的页面保存入计算机,否则把页面传递给数据抽取器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都国腾实业集团有限公司,未经成都国腾实业集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201520248413.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top