钻瓜专利网为您找到相关结果
1897188 个,建议您
升级VIP 下载更多相关专利
[发明专利] 一种异步爬虫 系统及数据爬取方法 -CN202010171572.1 在审
发明人:
周坤朋 ;秦曼 ;王连军
- 专利权人:
郑州悉知信息科技股份有限公司
申请日:
2020-03-12
-
公布日:
2020-07-10
-
主分类号:
G06F16/951 文献下载
摘要: 本申请提供了一种异步爬虫 系统及数据爬取方法,其中,异步爬虫 系统包括业务层模块 和服务层模块 ;业务层模块 在接收到来自终端的爬虫 需求时,根据爬虫 需求生成爬虫 请求,将生成的爬虫 请求进行缓存;服务层模块 从已缓存的爬虫 请求中取爬虫 请求至Celery队列;利用Celery系统的多个任务执行单元并行爬取Celery队列中多个爬虫 请求分别对应的数据,并将针对每个爬虫 请求爬取的数据进行整合,以获得每个爬虫 请求对应的目标数据;以及利用Celery系统将每个爬虫 请求对应的目标数据返回给业务层模块 ,以供终端从业务层模块 获取。本申请能够大大提高数据爬取效率,且当面对源源不断的爬虫 需求时,能够快速地进行响应。
一种 异步 爬虫 系统 数据 方法
[发明专利] 一种爬虫 采集内容结构化的方法 -CN201410111764.8 有效
发明人:
程瑶
- 专利权人:
浪潮电子信息产业股份有限公司
申请日:
2014-03-25
-
公布日:
2018-02-23
-
主分类号:
G06F17/30 文献下载
摘要: 本发明公开了一种爬虫 采集内容结构化的方法,适用于爬虫 对网页的解析阶段,其适用的体系结构包括爬虫 模块 、解析模块 和结合模块 ;其中,爬虫 模块 实现整个数据采集过程,包含结合模块 ;解析模块 是实现网页解析的独立模块 ;结合模块 用于连接爬虫 模块 和解析模块 。该方法利用结合模块 把爬虫 模块 和专业的网页解析模块 结合到了一起,在爬虫 进行到解析阶段时,会自动调用解析模块 的内容;解析完毕后,会继续爬虫 模块 的剩余流程,将已经结构化完毕的字段提交给搜索引擎。该方法通过把具有网页解析功能的工具与爬虫 结合,实现对用户需要字段的自定义解析、自定义提取,使用灵活,可以有效扩展可结构化的字段,扩大后期搜索分析的范围。
一种 爬虫 采集 内容 结构 方法
[发明专利] 一种基于插件的文献获取及存储系统 -CN202111298874.6 在审
发明人:
王继民 ;李永超 ;缪晶晶 ;李嘉玮
- 专利权人:
河海大学
申请日:
2021-11-04
-
公布日:
2022-02-01
-
主分类号:
G06F16/951 文献下载
摘要: 本发明提供一种基于插件的文献获取及存储系统,包括爬虫 插件模块 、爬虫 插件管理配置模块 、文献下载管理模块 、文献资料存储模块 ;所述爬虫 插件模块 包含为不同数据源单独定制的各种爬虫 ,每个爬虫 实现统一的接口,实现不同文献属性以及文献下载链接的获取;所述爬虫 插件管理配置模块 管理各文献数据源爬虫 插件,实现文献爬虫 插件的发现、加载和配置,实现爬虫 状态控制以及爬取进度展示;所述文献下载管理模块 包含一个自适应下载线程调度器,负责文献文本内容的下载;所述文献资料存储模块 实现海量文献信息的存储本发明爬取机动性高,范围广,速度快,对于文献爬取有很强的的针对性,解决了传统爬虫 爬取内容杂、精度低、涉及范围小的问题。
一种 基于 插件 文献 获取 存储系统
[发明专利] 一种房屋信息采集服务系统 -CN201410545328.1 有效
发明人:
贾岩
- 专利权人:
深圳市易图资讯股份有限公司
申请日:
2014-10-15
-
公布日:
2019-03-22
-
主分类号:
G06F16/951 文献下载
摘要: 本发明公开了一种房屋信息采集服务系统,包括:网站爬虫 组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫 服务模块 进行数据的保存;监控服务模块 ,用于监控网站爬虫 服务模块 的工作情况,及各个网站爬虫 组件的工作情况,及时发现网站爬虫 组件是否工作正常,抓取的数据是否正确;管理服务模块 ,用于整个网站爬虫 服务的管理与配置;部署服务模块 ,用于升级了网站爬虫 组件后部署升级网站爬虫 组件;调度服务模块 ,用于调度网站爬虫 服务里面的网站爬虫 组件如何工作、什么时候工作、什么时候停止。
一种 房屋信息 采集 服务 系统
[发明专利] 反爬虫 的方法、装置、电子设备及存储介质 -CN202211535967.0 在审
发明人:
马钰璐 ;蒋欧阳 ;李华
- 专利权人:
号百信息服务有限公司
申请日:
2022-12-02
-
公布日:
2023-05-05
-
主分类号:
H04L9/40 文献下载
摘要: 本发明涉及一种反爬虫 的方法、装置、电子设备及存储介质。反爬虫 方法包括步骤:S1、由爬虫 判定模块 进行爬虫 判定外部查询请求,当爬虫 判定模块 判断为正常的访问请求,按原流程返回正确结果;当爬虫 判定模块 判断为异常的请求,转发到伪数据注入模块 ;S2、伪数据注入模块 根据访问请求的键值生成伪数据返回值,把生成的伪数据结果作为请求响应返回给用户;伪数据注入模块 同步记录数据,写入伪数据注入日志表;S3、当出现正常请求被错误判定为爬虫 时,进行数据恢复,将正确的结果返回给用户恢复被伪数据污染的结果。依据本发明的反爬虫 方法应用于码号查询服务场景,注入伪数据,保证爬虫 获得的数据不可用;并且误判的情况下具备恢复正确数据的能力。
爬虫 方法 装置 电子设备 存储 介质