专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果62837个,建议您升级VIP下载更多相关专利
  • [发明专利]数据抓取系统、方法和装置-CN201710516470.7有效
  • 马静飞 - 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
  • 2017-06-29 - 2022-03-04 - G06F16/27
  • 该系统的一具体实施方式包括:爬虫客户端,用于向爬虫服务器发送数据抓取请求,接收爬虫服务器返回的包括待处理的配置文件的数据抓取文件,抓取列表页的统一资源定位符关联的列表页中所包含的超链接所链接的内容页的统一资源定位符,并向爬虫服务器发送内容页的统一资源定位符;爬虫服务器,用于接收爬虫客户端发送的数据抓取请求,向爬虫客户端发送包括待处理的配置文件的数据抓取文件,接收爬虫客户端返回的抓取到的内容页的统一资源定位符,并对抓取到的内容页的统一资源定位符进行存储
  • 数据抓取系统方法装置
  • [发明专利]一种数据搜索方法及装置-CN201510406364.4有效
  • 张俊伟 - 无锡天脉聚源传媒科技有限公司
  • 2015-07-10 - 2019-03-26 - G06F16/951
  • 本发明实施例公开了一种数据搜索方法及装置,用以根据待搜索的关键词的权重动态调整爬虫执行时间。所述方法包括:获取用户输入的搜索关键词;从预设的关键词库中提取出所述搜索关键词对应的关键词属性;根据提取出的所述关键词属性,获取满足预设执行条件的所有关键字,并将满足所述预设执行条件的关键字循环发送至爬虫任务执行队列;根据所述关键字分别对应的权重值,配置每个所述关键字对应的爬虫执行时间,并根据所述爬虫执行时间,生成对应的爬虫任务;执行对应的爬虫任务,获取爬虫结果;具有根据待搜索的关键词的权重动态调整爬虫执行时间的有益效果
  • 一种数据搜索方法装置
  • [发明专利]基于浏览器内置爬虫系统的爬虫实现方法-CN201610755586.1有效
  • 陆浩卿;牟杰 - 携程计算机技术(上海)有限公司
  • 2016-08-29 - 2019-06-18 - G06F16/951
  • 本发明公开了基于浏览器内置爬虫系统的爬虫实现方法:浏览器发送请求命令至外部web服务器通过根据请求命令;外部web服务器发送经加密的响应信息至浏览器;浏览器内置的爬虫系统对加密的响应信息进行处理,使得浏览器获取响应数据本发明通过在浏览器内设置爬虫系统,使得浏览器内核和web应用层关联起来,实现全方面控制web应用层逻辑。本发明能够通过爬虫系统任意修改web应用层逻辑,监控各种应用层以及非应用层的数据,也即具有强大的功能。同时,由于爬虫系统不直接工作在web应用层,而是工作在浏览器内核层,web应用层无法发现爬虫内核层的监控,因此本发明的爬虫系统具有良好的隐蔽性。
  • 基于浏览器内置爬虫系统实现方法
  • [发明专利]一种草地生物多样性监测装置-CN202210319659.8有效
  • 胡飞龙;马月;刘立;王蕾;臧明月;卢晓强 - 生态环境部南京环境科学研究所
  • 2022-03-29 - 2023-06-23 - A01M29/22
  • 本申请提供有一种草地生物多样性监测装置,包括:支撑架、设置在所述支撑架顶部的监测装置以及套设在支撑架外壁的防爬虫组件,所述防爬虫组件包括:固定套设在支撑架外壁用于使爬虫进入内部的诱导部;活动套设在所述支撑架外壁且贴合在诱导部顶部的阻爬收集部,用于阻止爬虫向上攀爬;以及设置在支撑架上的供气驱动部。本技术方案通过在支撑架的外壁设置有防爬虫组件,爬虫沿着支撑架向上爬动会经过诱导座,叶轮在外界风力的作用下转动使得引风扇叶转动,进而外界的空气通过排气软管进入分流座并从排气通孔排出,使得爬虫无法通过挡座向上,同时部分爬虫经过进入口进入腔体内通过环形滤网上的杀虫剂颗粒杀灭。
  • 一种草地生物多样性监测装置
  • [发明专利]一种基于分布式爬虫引擎的数据采集方法-CN202011591563.4有效
  • 陈思恩 - 科技谷(厦门)信息技术有限公司
  • 2020-12-29 - 2023-09-15 - G06F16/951
  • 本发明公开了一种基于分布式爬虫引擎的数据采集方法,其包括以下步骤:S1、获取用户的任务创建请求并创建对应的数据采集任务;S2、构建分布式爬虫系统,对数据采集任务进行调度并触发任务执行,通过分布式爬虫系统分解数据采集任务,并分配给多个爬虫线程;S3、启动爬虫线程,分布式爬虫系统从队列资源获取URL,根据数据采集任务指定的目标网站爬取URL对应的页面,下载并获取页面数据;S4、对获取的页面数据进行整理清洗,生成与数据采集任务匹配的格式化数据集,并通过持久化处理后存储入数据库;本发明通过分布式部署爬虫集群的爬虫引擎,爬取目标网站的定向数据,提高了爬取效率及数据的精确度。
  • 一种基于分布式爬虫引擎数据采集方法
  • [发明专利]数据采集系统和方法-CN202010914439.0在审
  • 张学颖;曹六一;杨飞 - 北大方正集团有限公司;北京北大方正电子有限公司
  • 2020-09-03 - 2020-12-04 - G06F16/951
  • 本发明实施例提供一种数据采集系统和方法,该系统包括:爬虫管理模块,采集集群模块和数据落地模块;所述爬虫管理模块中部署有多个爬虫线程,不同爬虫线程对应的数据采集方式不同;所述爬虫管理模块用于:基于调度机制,控制相应爬虫线程通过所述采集集群模块在网页中采集数据,并基于滤重机制对采集到的数据进行处理,得到有效数据;所述数据落地模块用于获取所述有效数据,并将所述有效数据按照预先确定的落地路径写入相应的内存中。该数据采集系统通过统一管理爬虫线程以及数据滤重,大大减少了开发人员的工作量,提高了数据采集效率和精度。
  • 数据采集系统方法
  • [发明专利]一种分布式爬虫的调度管理方法-CN201811620979.7有效
  • 杨胜华;宋设 - 浪潮软件集团有限公司
  • 2018-12-28 - 2023-06-06 - G06F16/951
  • 本发明提供一种分布式爬虫的调度管理方法,属于调度管理技术领域,该方法将爬虫进程调度和爬虫任务调度包装在爬虫心跳中,将心跳信息反馈给基于zookeeper集群搭建的中心节点,通过中心节点判断是否有调度节点或心跳节点发生异常,在有调度节点或心跳节点发生异常时,中心节点进行调度节点或心跳节点的调度管理,解决现有调度管理方法在调度节点宕机时不能及时调整与所对应的爬虫节点的链接,造成爬虫节点资源的浪费的问题,同时,解决现有调度管理方法在爬虫节点宕机时不能及时释放调度节点的连接
  • 一种分布式爬虫调度管理方法

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top