专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果1897188个,建议您升级VIP下载更多相关专利
  • [发明专利]爬虫系统、方法和服务器-CN201911316078.3在审
  • 徐磊;袁力;邸烁;石欢 - 北京阿尔山区块链联盟科技有限公司
  • 2019-12-18 - 2020-05-05 - G06F16/951
  • 本发明提供了一种爬虫系统、方法和服务器,系统包括地址爬虫模块、内容爬虫模块、反馈模块和调整模块;地址爬虫模块用于爬取待爬取网页内容的地址,并将地址存储至地址等待队列;内容爬虫模块用于从地址等待队列中提取该地址,爬取该地址对应的网页内容;如果爬取失败,通过反馈模块,将反馈参数发送至调整模块;调整模块用于根据该反馈参数,调整地址爬虫模块和内容爬虫模块的爬取方式。该系统中,对于地址对应的网页内容,如果爬取失败,可以通过调整模块自动调整地址爬虫模块和内容爬虫模块的爬取方式,以保证爬虫进程的有效进行,从而提高针对反爬机制的应对措施的实施效果。
  • 爬虫系统方法服务器
  • [发明专利]一种异步爬虫系统及数据爬取方法-CN202010171572.1在审
  • 周坤朋;秦曼;王连军 - 郑州悉知信息科技股份有限公司
  • 2020-03-12 - 2020-07-10 - G06F16/951
  • 本申请提供了一种异步爬虫系统及数据爬取方法,其中,异步爬虫系统包括业务层模块和服务层模块;业务层模块在接收到来自终端的爬虫需求时,根据爬虫需求生成爬虫请求,将生成的爬虫请求进行缓存;服务层模块从已缓存的爬虫请求中取爬虫请求至Celery队列;利用Celery系统的多个任务执行单元并行爬取Celery队列中多个爬虫请求分别对应的数据,并将针对每个爬虫请求爬取的数据进行整合,以获得每个爬虫请求对应的目标数据;以及利用Celery系统将每个爬虫请求对应的目标数据返回给业务层模块,以供终端从业务层模块获取。本申请能够大大提高数据爬取效率,且当面对源源不断的爬虫需求时,能够快速地进行响应。
  • 一种异步爬虫系统数据方法
  • [发明专利]基于HTTP代理的爬虫系统及其实现方法-CN202110134602.6在审
  • 李宗伟;童晓玲 - 上海应用技术大学
  • 2021-01-30 - 2021-05-14 - G06F16/951
  • 本发明提供了一种基于HTTP代理的爬虫系统及其实现方法,该系统包括:爬虫任务创建模块爬虫特征处理模块爬虫任务执行模块、信息存储模块和浏览器;爬虫任务创建模块,用于根据爬虫任务种子信息确定爬虫任务,并构造对应的url;爬虫任务执行模块,用于获取和执行爬虫任务,以及提取网站页面信息;爬虫特征处理模块,用于在浏览器向网站服务器发送请求时,修改请求头信息;信息存储模块,用于存储提取的网站页面信息。可以对HTTP请求头中比较重要的信息进行修改,也可以在使用第三方无头浏览器时,隐藏第三方无头浏览器的特征,防止被网站检测,进一步提升浏览器爬虫的隐蔽性,并且可以简化浏览器操作,适用于大批量的爬取数据。
  • 基于http代理爬虫系统及其实现方法
  • [发明专利]一种爬虫采集内容结构化的方法-CN201410111764.8有效
  • 程瑶 - 浪潮电子信息产业股份有限公司
  • 2014-03-25 - 2018-02-23 - G06F17/30
  • 本发明公开了一种爬虫采集内容结构化的方法,适用于爬虫对网页的解析阶段,其适用的体系结构包括爬虫模块、解析模块和结合模块;其中,爬虫模块实现整个数据采集过程,包含结合模块;解析模块是实现网页解析的独立模块;结合模块用于连接爬虫模块和解析模块。该方法利用结合模块爬虫模块和专业的网页解析模块结合到了一起,在爬虫进行到解析阶段时,会自动调用解析模块的内容;解析完毕后,会继续爬虫模块的剩余流程,将已经结构化完毕的字段提交给搜索引擎。该方法通过把具有网页解析功能的工具与爬虫结合,实现对用户需要字段的自定义解析、自定义提取,使用灵活,可以有效扩展可结构化的字段,扩大后期搜索分析的范围。
  • 一种爬虫采集内容结构方法
  • [发明专利]一种分布式爬虫管理系统及其方法-CN201710092369.3有效
  • 刘希;陈进宝;刘光辉 - 国信优易数据有限公司
  • 2017-02-21 - 2020-08-18 - G06F16/951
  • 本发明公开一种分布式爬虫管理系统,包括:用于系统登录和数据展示的主页展示模块;创建项目和对项目进行管理的项目管理模块;对项目爬虫进行部署和管理的爬虫管理模块;对爬虫数据进行监控管理的数据管理模块;对爬虫节点进行管理的节点管理模块和对用户的爬虫进行代理管理的代理管理模块,其中,所述爬虫节点为从云平台上申请的虚拟机。此外,本发明还提供一种分布式爬虫管理方法。本发明的分布式爬虫管理系统能够提供反爬解决方案以及爬虫和数据的管理与分析,从而为企业或个人提供安全、高效的数据爬取解决方案。
  • 一种分布式爬虫管理系统及其方法
  • [发明专利]一种基于插件的文献获取及存储系统-CN202111298874.6在审
  • 王继民;李永超;缪晶晶;李嘉玮 - 河海大学
  • 2021-11-04 - 2022-02-01 - G06F16/951
  • 本发明提供一种基于插件的文献获取及存储系统,包括爬虫插件模块爬虫插件管理配置模块、文献下载管理模块、文献资料存储模块;所述爬虫插件模块包含为不同数据源单独定制的各种爬虫,每个爬虫实现统一的接口,实现不同文献属性以及文献下载链接的获取;所述爬虫插件管理配置模块管理各文献数据源爬虫插件,实现文献爬虫插件的发现、加载和配置,实现爬虫状态控制以及爬取进度展示;所述文献下载管理模块包含一个自适应下载线程调度器,负责文献文本内容的下载;所述文献资料存储模块实现海量文献信息的存储本发明爬取机动性高,范围广,速度快,对于文献爬取有很强的的针对性,解决了传统爬虫爬取内容杂、精度低、涉及范围小的问题。
  • 一种基于插件文献获取存储系统
  • [发明专利]一种房屋信息采集服务系统-CN201410545328.1有效
  • 贾岩 - 深圳市易图资讯股份有限公司
  • 2014-10-15 - 2019-03-22 - G06F16/951
  • 本发明公开了一种房屋信息采集服务系统,包括:网站爬虫组件,用于针对一个网站的抓取工作,针对网站的页面元素与特点进行专门的解析,完成数据抽取后,映射到对应的数据实体当中,再交给网站爬虫服务模块进行数据的保存;监控服务模块,用于监控网站爬虫服务模块的工作情况,及各个网站爬虫组件的工作情况,及时发现网站爬虫组件是否工作正常,抓取的数据是否正确;管理服务模块,用于整个网站爬虫服务的管理与配置;部署服务模块,用于升级了网站爬虫组件后部署升级网站爬虫组件;调度服务模块,用于调度网站爬虫服务里面的网站爬虫组件如何工作、什么时候工作、什么时候停止。
  • 一种房屋信息采集服务系统
  • [发明专利]一种Java语言和Quartz框架的爬虫程序调度系统-CN202011531385.6在审
  • 谢广才;姜波;周彦其;李鑫 - 中文在线数字出版集团股份有限公司
  • 2020-12-22 - 2022-06-24 - G06F16/951
  • 本发明公开了一种Java语言和Quartz框架的爬虫程序调度系统,包括界面控制模块;编写任务规则和爬虫程序规则,并将其分别存储到Quartz数据库和爬虫数据库;任务调度模块;从Quartz数据库和爬虫数据库中分别获取任务规则和爬虫程序规则,并针对不同的规则分别编制任务调度函数和爬虫调度函数;爬虫模块;用于对爬虫调度函数进行相应的处理;存储模块;用于存储任务调度函数和爬虫调度函数,并对其进行增删处理;前端模块;用于复制查看和配置任务调度函数集群和爬虫调度函数集群优点是:通过java spring boot框架编制特定爬虫程序,使用quartz控制自动化流转,并通过JavaScript+vue搭建前端来控制定时系统的规则,并展示任务运行情况;省时省力,提高了数据采集效率
  • 一种java语言quartz框架爬虫程序调度系统
  • [发明专利]爬虫的方法、装置、电子设备及存储介质-CN202211535967.0在审
  • 马钰璐;蒋欧阳;李华 - 号百信息服务有限公司
  • 2022-12-02 - 2023-05-05 - H04L9/40
  • 本发明涉及一种反爬虫的方法、装置、电子设备及存储介质。反爬虫方法包括步骤:S1、由爬虫判定模块进行爬虫判定外部查询请求,当爬虫判定模块判断为正常的访问请求,按原流程返回正确结果;当爬虫判定模块判断为异常的请求,转发到伪数据注入模块;S2、伪数据注入模块根据访问请求的键值生成伪数据返回值,把生成的伪数据结果作为请求响应返回给用户;伪数据注入模块同步记录数据,写入伪数据注入日志表;S3、当出现正常请求被错误判定为爬虫时,进行数据恢复,将正确的结果返回给用户恢复被伪数据污染的结果。依据本发明的反爬虫方法应用于码号查询服务场景,注入伪数据,保证爬虫获得的数据不可用;并且误判的情况下具备恢复正确数据的能力。
  • 爬虫方法装置电子设备存储介质

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top