专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果8777403个,建议您升级VIP下载更多相关专利
  • [发明专利]一种爬虫部署方法、系统、装置、设备及存储介质-CN202011509553.1在审
  • 刘海飞;刘国宏;姜卓;魏峻 - 山东中创软件工程股份有限公司
  • 2020-12-18 - 2021-04-06 - G06F16/951
  • 本申请公开了一种爬虫部署方法、系统、装置、设备及存储介质,包括:利用本地的目录监测工具对本地的爬虫目录进行监测,以确定爬虫目录中由开发平台向爬虫目录发布爬虫项目引起的增量文件;利用本地的增量同步工具将所述增量文件同步至从服务,以更新从服务爬虫目录;基于预设任务分配规则,将爬虫项目对应的爬虫任务分配至从服务,以便从服务基于从服务爬虫目录执行主服务分配的爬虫任务。本申请通过在主服务和从服务搭建目录监测和增量同步架构以实现由开发平台向服务集群中的爬虫目录发布的爬虫项目的实时增量同步,提高了服务集群间的爬虫项目的增量同步效率及精确度。
  • 一种爬虫部署方法系统装置设备存储介质
  • [发明专利]分布式爬虫系统及其提取网页数据的方法-CN201010224671.8无效
  • 贾海禄 - 北京瑞信在线系统技术有限公司
  • 2010-07-07 - 2012-01-11 - G06F17/30
  • 本发明公开了一种分布式爬虫系统及其提取网页数据的方法,该系统包括爬虫服务,用于发布未处理URL队列,并对所述分布式爬虫系统进行逻辑控制;消息队列服务,用于从所述爬虫服务接收URL队列,并将所述URL队列向所述下载端发送;至少一个下载端,用于根据从所述消息队列服务中接收的URL队列下载网页,并将下载的网页数据发送至所述爬虫服务;URL过滤器,用于对所述爬虫服务收到的网页数据进行排重。本发明的爬虫服务不需要知道下载端的实现,爬虫服务将任务发给消息队列服务,并等待任务结果的返回即可,逻辑控制和下载任务的分离,让分布式爬虫系统的启动、管理、容错都变的简单许多。
  • 分布式爬虫系统及其提取网页数据方法
  • [发明专利]一种可快速分布式部署的爬虫方法-CN201610751104.5在审
  • 章水鑫;许伟;叶丹青;左强翔 - 南京车易淘网络信息技术有限公司
  • 2016-08-26 - 2016-11-30 - G06F17/30
  • 本发明提供了一种可快速分布式部署的爬虫方法,Dispatch模块负责生成任务,部署在一台服务上;Dispose模块负责处理任务,部署在所有的爬虫服务上,本发明具有以下优点,爬虫任务由单点生成,所有爬虫服务通过队列获取任务,而且爬虫任务分为列表任务和详情页任务,不同类型的任务分别对应不同类型的消息队列,Dispose模块循环检测数据库配置,对爬虫线程数量进行管理。所有的爬虫服务都是到消息队列中取任务,任何一台服务故障,任务会由其他服务分担。每台爬虫服务的配置均相同,增减服务不需要修改项目配置。
  • 一种快速分布式部署爬虫方法
  • [发明专利]一种大规模分布式数据管理系统及其方法-CN201611055775.4有效
  • 王亚松;刘希;常子青 - 国信优易数据有限公司
  • 2016-11-25 - 2019-08-02 - H04L29/08
  • 该系统包括爬虫端、数据收集服务、主控制、分布式存储服务和业务端,爬虫端和业务端分别与数据收集服务进行数据交互,其中,爬虫端根据主控制的指令来抓取网页数据并向数据收集服务发送;数据收集服务用于将爬虫端发送的数据整合之后上传至分布式存储服务,并将数据发送给业务端;主控制器用于管理爬虫端、业务端认证以及数据收集服务的负载均衡以及确定爬虫端和业务端的身份合法性,根据预定的分配规则为爬虫端分布相适配的数据收集服务,当数据达到相适配的数据收集服务的存储预设值时,主控制控制所述爬虫端向其他未达存储预设值的数据收集服务发送所爬取的数据。
  • 一种大规模分布式数据管理系统及其方法
  • [发明专利]一种测试网络爬虫的方法及系统-CN201410655647.8有效
  • 王辉 - 阿里巴巴集团控股有限公司
  • 2014-11-18 - 2019-03-26 - H04L12/26
  • 本申请实施例公开了一种测试网络爬虫的方法及系统,所述方法包括:第一服务配置预设数量的顶级域名,并将所述顶级域名设置为指向第二服务的IP地址;网络爬虫服务读取所述顶级域名并根据所述顶级域名扩展出海量域名;网络爬虫服务遍历所述海量域名,并针对每个域名向第二服务发起抓取请求;第二服务选取网站,并将所述网站提供给网络爬虫服务抓取。本申请实施例公开的测试网络爬虫的方法及系统,可以在不对真实网站形成打扰的情况下,检测网络爬虫抓取海量网站页面时的工作性能。
  • 一种测试网络爬虫方法系统
  • [发明专利]爬虫系统及方法-CN201910835029.4有效
  • 宋海伟 - 上海携程商务有限公司
  • 2019-09-05 - 2023-07-07 - G06F16/951
  • 本发明公开了爬虫系统及方法,其中爬虫系统包括客户端和服务端;服务端包括负载均衡服务、集群服务;客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送爬取参数至负载均衡服务;负载均衡服务用于根据爬取参数生成爬虫任务,并分配爬虫任务至集群服务;集群服务用于根据爬虫任务爬取目标网站的目标数据。本发明的客户端用户只需要在客户端根据预设爬取目标和目标网站的访问要求设置爬取参数,生成的爬虫任务统一由集群服务进行处理,使得系统易于维护,减少研发时长,避免重复研发工作量及降低研发成本。
  • 爬虫系统方法
  • [发明专利]服务、反爬虫系统和反爬虫验证方法-CN201610127493.4有效
  • 崔广宇;李巍 - 携程计算机技术(上海)有限公司
  • 2016-03-07 - 2019-04-09 - H04L29/06
  • 本发明提供一种服务、反爬虫系统和反爬虫验证方法,服务与一站点通讯连接,该服务中存储有发布的用于对抗针对该站点的爬虫行为的反爬虫策略。反爬虫验证方法包括:S1、该站点发送一到该服务获取该反爬虫策略的信息至用户;S2、该服务在接收到用户发来的控制指令后将该反爬虫策略传送至该用户;S3、该站点接收该用户发来的针对该反爬虫策略的解密结果,并将该解密结果发送给该服务;S4、该服务对该解密结果进行验证,并将验证结果发送至该站点,该验证结果为该解密结果正确的信息或该解密结果错误的信息本发明能够大为减少测试流程、审批流程、发布流程以及发布后开关流程的处理时间,进而提高反爬虫策略的发布速度。
  • 服务器爬虫系统验证方法

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top