专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果62837个,建议您升级VIP下载更多相关专利
  • [发明专利]爬虫模板变更的监测方法、系统、电子设备及存储介质-CN202011265722.1有效
  • 王琛;李青龙 - 北京智慧星光信息技术有限公司
  • 2020-11-13 - 2021-02-02 - G06F11/36
  • 本发明公开了一种爬虫模板变更的监测方法、系统、电子设备及存储介质,该方法包括:在爬虫脚本库中查找无数据的爬虫脚本;将查找到的所有无数据的爬虫脚本所对的配置id存储至无数据爬虫脚本数据库中;将无数据爬虫脚本数据库中的配置id加入检测队列进行无数据检测;根据配置id得到配置id所对应的爬虫脚本的代码信息;根据代码信息得到爬虫脚本中的URL集合,遍历下载URL集合中的每一个URL,得到每一个URL下载结果值;根据URL下载结果值是否为空、URL请求响应状态码是否等于第一预设状态码、URL详情链接数量是否大于零、位于三层模板中的回调函数的回调返回值是否有值,确定爬虫模板是否变更。上述方法通过监测多个返回值实现了自动爬虫模板变更监测。
  • 爬虫模板变更监测方法系统电子设备存储介质
  • [发明专利]分布式网络爬虫任务调度的方法及系统-CN201310504193.X无效
  • 何学敏 - 深圳市同洲电子股份有限公司
  • 2013-10-24 - 2014-01-15 - G06F17/30
  • 本发明互联网搜索引擎技术领域,提供了一种分布式网络爬虫任务调度的方法及其系统,其中,方法包括:对分布式网络爬虫集群进行配置;第一爬虫分析第一层链接对应的网页,提取网页中存在的第二层链接;根据Hash一致性算法分配与第二层链接对应的爬取任务;如果第二层链接是分配给第一爬虫之外的爬虫,则将第二层链接对应的爬取任务记录到相应序号的爬虫对应的爬取任务文件中;每隔预定的时间间隔将爬取任务文件打包上传到共享目录中;每个爬虫定时到共享目录中提取并执行对应的爬取任务本发明提供的分布式网络爬虫任务调度的方法及其系统,通过共享任务目录来实现分布式爬虫任务的协同任务调度,能把任务均匀分布到各个爬虫
  • 分布式网络爬虫任务调度方法系统
  • [发明专利]一种网络爬虫任务调度方法及装置-CN201711088266.6在审
  • 陈开冉;邓楚健 - 广州探迹科技有限公司
  • 2017-11-07 - 2018-02-16 - G06F9/50
  • 本发明公开了一种网络爬虫任务调度方法及装置,涉及软件工程领域,用以解决现有的爬虫任务调度存在需要频繁读写数据库,数据库容易堵塞,造成工作效率低的问题。该方法包括第一调度器收到第一爬虫任务,根据第一爬虫任务的状态确定第一爬虫任务的类型;当确认为延时处理时,确定与延时处理对应的执行时间并将第一爬虫任务存储在缓存数据库;第二调度器在更新周期遍历缓存数据库,确定到达执行时间时,将与执行时间对应的第一爬虫任务发送至内存优先级队列内;第三调度器采用时间片轮转算法从内存优先级队列内的依此获取爬虫任务,直至第一爬虫任务被从内存优先级队列内取出。
  • 一种网络爬虫任务调度方法装置
  • [发明专利]一种反制爬虫系统-CN202110790943.9在审
  • 叶莹;于刚;李志刚 - 壹药网科技(上海)股份有限公司
  • 2021-07-13 - 2021-09-03 - G06F21/55
  • 本发明涉及互联网检测技术领域,尤其涉及一种反制爬虫系统,其中,包括:存储模块,预先保存爬虫请求方的历史药品访问记录;判断模块,接收请求方发送的访问请求,并在访问请求满足爬虫请求条件时,将请求方作为爬虫请求方;分类模块,查询并提取所有历史药品访问记录,对每个爬虫请求方的历史药品访问记录中的药品分类形成请求历史药品类别详情页;生成模块,根据请求历史药品类别详情页和后台数据库中保存的药品信息,生成虚假药品信息;反馈模块,将虚假药品信息反馈给爬虫请求方。有益效果:便于将虚假药品信息定向反馈给爬虫请求方,减少爬虫请求方获取的真实数据,提高后台数据库的保护能力,降低爬虫风险管理运营成本。
  • 一种反制爬虫系统
  • [发明专利]爬虫的方法、装置、电子设备及存储介质-CN202211535967.0在审
  • 马钰璐;蒋欧阳;李华 - 号百信息服务有限公司
  • 2022-12-02 - 2023-05-05 - H04L9/40
  • 本发明涉及一种反爬虫的方法、装置、电子设备及存储介质。反爬虫方法包括步骤:S1、由爬虫判定模块进行爬虫判定外部查询请求,当爬虫判定模块判断为正常的访问请求,按原流程返回正确结果;当爬虫判定模块判断为异常的请求,转发到伪数据注入模块;S2、伪数据注入模块根据访问请求的键值生成伪数据返回值,把生成的伪数据结果作为请求响应返回给用户;伪数据注入模块同步记录数据,写入伪数据注入日志表;S3、当出现正常请求被错误判定为爬虫时,进行数据恢复,将正确的结果返回给用户恢复被伪数据污染的结果。依据本发明的反爬虫方法应用于码号查询服务场景,注入伪数据,保证爬虫获得的数据不可用;并且误判的情况下具备恢复正确数据的能力。
  • 爬虫方法装置电子设备存储介质
  • [发明专利]爬虫资源分配方法、装置、设备及存储介质-CN202111422851.1在审
  • 李学环;沈国栋 - 中移(苏州)软件技术有限公司;中国移动通信集团有限公司
  • 2021-11-26 - 2023-05-30 - G06F9/48
  • 本发明公开了一种爬虫资源分配方法、装置、设备及存储介质,该爬虫资源分配方法包括:基于目标网站和舆情系统数据热度指标确定爬虫任务的元数据基线表;该元数据基线表中包含爬虫任务的任务状态;扫描元数据基线表获取任务状态,根据任务状态确定目标爬虫任务从目标网站抓取的目标数据所处的热度周期;根据目标爬虫任务的平均实际调度周期和承诺调度周期、及目标数据的综合热度确定爬虫线程资源数。本发明实施例通过以目标网站为粒度并结合舆情系统数据热度指标确定爬虫任务的元数据基线表,进一步根据目标数据的热度周期实现动态资源调整,可以在有限资源情况下达到整体爬虫调度目标,以及提升产品对网络数据需求的及时性和适用性
  • 爬虫资源分配方法装置设备存储介质
  • [发明专利]基于用户行为埋点的爬虫识别方法及系统-CN201810491289.X有效
  • 付文平;孙大圣;许鹏 - 携程旅游网络技术(上海)有限公司
  • 2018-05-21 - 2021-04-16 - H04L29/06
  • 本发明公开了一种基于用户行为埋点的爬虫识别方法及系统,其中方法包括:S1、客户端接收用户发起的访问请求,并将访问请求向后端服务系统异步发送;S2、后端服务系统在接收到访问请求后,同步用户的访问日志,访问日志包括用户的访问行为数据;S3、后端服务系统通过规则引擎聚合访问行为数据;S4、后端服务系统根据聚合后的访问行为数据判断用户是否属于爬虫,若是则根据访问日志聚合出用于标识用户为爬虫爬虫特征数据,然后将爬虫特征数据通过消息队列异步推送至所述客户端中的爬虫列表;S5、客户端根据爬虫列表响应访问请求。本发明通过同步访问日志,并聚合日志中的访问行为数据后识别爬虫,提高爬虫识别率和准确率。
  • 基于用户行为爬虫识别方法系统
  • [发明专利]一种爬虫采集内容结构化的方法-CN201410111764.8有效
  • 程瑶 - 浪潮电子信息产业股份有限公司
  • 2014-03-25 - 2018-02-23 - G06F17/30
  • 本发明公开了一种爬虫采集内容结构化的方法,适用于爬虫对网页的解析阶段,其适用的体系结构包括爬虫模块、解析模块和结合模块;其中,爬虫模块实现整个数据采集过程,包含结合模块;解析模块是实现网页解析的独立模块;结合模块用于连接爬虫模块和解析模块。该方法利用结合模块把爬虫模块和专业的网页解析模块结合到了一起,在爬虫进行到解析阶段时,会自动调用解析模块的内容;解析完毕后,会继续爬虫模块的剩余流程,将已经结构化完毕的字段提交给搜索引擎。该方法通过把具有网页解析功能的工具与爬虫结合,实现对用户需要字段的自定义解析、自定义提取,使用灵活,可以有效扩展可结构化的字段,扩大后期搜索分析的范围。
  • 一种爬虫采集内容结构方法
  • [发明专利]一种可定制的网络爬虫方法及系统-CN201910292891.5有效
  • 张熙;段馨凝;吴旭;方滨兴 - 北京邮电大学
  • 2019-04-12 - 2021-09-24 - G06F16/951
  • 本发明实施例提供了一种可定制的网络爬虫方法及系统,其中可定制的网络爬虫方法,包括:通过人工输入配置界面获取单个待生成爬虫任务的配置项;利用所述配置项中的第一爬虫名称,查找为所述第一爬虫名称预先配置的网站静态配置文件通过所述目标静态配置文件中包含的第一网站运行配置文件名称,查找为所述第一网站运行配置文件名称预先配置的网站运行配置文件,作为目标运行配置文件;基于所述目标静态配置文件、所述目标运行配置文件及所述配置项,生成包含所述配置项的爬虫任务;获取所述目标静态配置文件中包含的爬虫入口链接;执行用于对所述爬虫入口链接进行目标数据抓取的爬虫任务。
  • 一种定制网络爬虫方法系统

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top