[发明专利]一种用于房库网的网络爬虫服务系统有效
申请号: | 201410347463.5 | 申请日: | 2014-07-21 |
公开(公告)号: | CN104182462B | 公开(公告)日: | 2018-06-26 |
发明(设计)人: | 贾岩 | 申请(专利权)人: | 安徽华贞信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 程笃庆;黄乐瑜 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种用于房库网的网络爬虫服务系统,可快速的进行网站挖掘并提取房产相关的数据,包括:网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站一一对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确;管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理;部署服务模块,用于对网站爬虫进行分配与部署;调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理。 | ||
搜索关键词: | 网站 爬虫 服务系统 网络爬虫 管理服务模块 监控服务模块 部署服务 调度服务 调度管理 调度模式 多个网站 爬虫模块 生命周期 数据实体 数据抓取 网站数据 相关参数 页面元素 语义分析 映射 内置 预设 抽取 解析 保存 监控 挖掘 分配 配置 升级 部署 管理 | ||
【主权项】:
1.一种用于房库网的网络爬虫服务系统,其特征在于,包括:网络爬虫模块,由多个网络爬虫组成,网络爬虫与网站一一对应,并针对网站的页面元素进行解析,网络爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;监控服务模块,用于监控各个网络爬虫的工作情况,判断网络爬虫工作是否正常,数据抓取是否正确;管理服务模块,用于配置网络爬虫工作相关参数的设置,对网络爬虫进行升级,并对服务系统的启动与停止、网络爬虫的生命周期及工作进行管理;部署服务模块,用于对网络爬虫进行分配与部署;调度服务模块,内置网络爬虫的调度模式,对网络爬虫的工作方式、时间、停止进行调度管理;网络爬虫模块分别连接监控服务模块、管理服务模块、部署服务模块和调度服务模块,监控服务模块连接管理服务模块,管理服务模块分别连接部署服务模块和调度服务模块;工作时,调度服务模块对网络爬虫的工作方式、时间、停止进行调度管理,部署服务模块从网络爬虫模块调用网络爬虫对相应的网站进行数据挖掘,监控服务模块监控网络爬虫的工作情况,当个别网络爬虫工作异常时,监控服务模块通知调度服务模块对异常的网络爬虫进行参数及工作方式调节,当异常网络爬虫达到或超过门限值a时,监控服务模块通知管理服务模块停止系统抓取网站数据,然后,管理服务模块通知调度服务模块和部署服务模块重新对网络爬虫进行调度和部署后再次进行网站数据挖掘,并由监控服务模块进行监控,循环往复。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽华贞信息科技有限公司,未经安徽华贞信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410347463.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种用户名密码管理、输入方法和系统
- 下一篇:文本信息中的图片显示方法及装置