专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果3998个,建议您升级VIP下载更多相关专利
  • [发明专利]一种基于集成学习的反爬虫系统-CN202211616203.4在审
  • 游棉州;陈洪钧;刘飞生;赵玉刚;杨俊;钟静婷 - 广州理工学院
  • 2022-12-15 - 2023-07-07 - G06F21/31
  • 本发明提供了一种基于集成学习的反爬虫系统及方法,该系统包括:数据识别模块,用于从网站服务端的访问数据中提取用户特征数据包括单位时间内的IP段访问量,访问总量,关键页面访问总量,UserAgent出现次数,关键页面最短访问间隔,小于自设最短访问间隔的关键页面查询次数,关键页面的访问次数的cookies数,查询不同页面的次数,并且转换成用户特征编码;爬虫识别模块,用于通过用户特征编码进行学习,并根据用户特征编码判断用户是否为爬虫用户,是爬虫用户则标记此IP地址为爬虫用户并禁止此IP地址的访问,是普通用户则允许此用户继续访问。本发明可以提高识别爬虫的精准度,降低误识别普通用户的概率。
  • 一种基于集成学习爬虫系统
  • [发明专利]一种基于链接分析的聚焦爬虫方法-CN201410227771.4有效
  • 屈鸿;周安林;张马路;孙明;邵领 - 电子科技大学
  • 2014-05-27 - 2017-10-20 - G06F17/30
  • 一种基于链接分析的聚焦爬虫方法,属于互联网信息检索、搜索引擎等领域,解决现有爬虫抓取准确率不高的问题,包括如下步骤抓取网页,将网页和目标样本网页的结构进行比较,确定目标网页,从网站入口链接开始,记录爬虫到目标网页的每一条链接路径,建立目标网页链接树;分析目标网页链接树,归纳链接树中目标网页路径上的链接,替换链接树中的链接,形成链接模版树;爬虫使用链接模版树作为导航,抓取与链接模版树相匹配中的网页链接,直到整个抓取循环过程结束,本发明的爬虫能够根据链接模版树的导航,在抓取网页的过程中,只抓取有效的链接,从而保证爬虫抓取网页的效率和准确率。
  • 一种基于链接分析聚焦爬虫方法
  • [发明专利]一种网络爬虫爬取路径的展示方法和装置-CN201811326724.X有效
  • 汪文星;刘柏;陆炯炯 - 网易(杭州)网络有限公司
  • 2018-11-08 - 2021-01-15 - G06F16/953
  • 本发明实施例提供了一种网络爬虫爬取路径的展示方法和装置,本发明实施例通过后端可以获取网络爬虫爬取的网页节点的标识信息,以及网页节点的爬取顺序,然后生成网页节点之间的层级关系,接着根据网页节点的标识信息和网页节点之间的层级关系,生成爬取路径数据,实现了在网络爬虫运行过程中,后端对网络爬虫爬取的数据进行实时处理,节省了人工离线处理的时间,提高了爬虫路径数据处理效率。进一步,在生成爬取路径数据之后,为每一个爬取路径数据分配标识信息,并保存于数据库中,保证了网络爬虫爬取数据记录的高效性和安全性,同时也节省了服务器的存储空间。
  • 一种网络爬虫路径展示方法装置
  • [发明专利]爬虫种子获取方法与设备及爬虫爬取方法与设备-CN201110232595.X有效
  • 吴滨华;王祖海 - 北京星网锐捷网络技术有限公司
  • 2011-08-15 - 2012-02-15 - H04L29/08
  • 本发明提供一种爬虫种子获取方法与设备及爬虫爬去方法与设备。爬虫种子获取方法包括:根据预设检索词词典和目标导航网站的URL特性,构造动态页面请求;将动态页面请求发送给目标导航网站的服务器;根据预设提取策略,从服务器根据动态页面请求返回的检索结果页面中提取目标URL,目标URL为检索结果页面中的URL的主域名地址;对目标URL进行唯一化处理,获取唯一化目标URL,将唯一化目标URL作为爬虫种子。本发明技术方案能够提供大量的、离散度大的爬虫种子,从而缩短形成主流URL的时间,提高主流URL的覆盖性,降低爬虫系统进行爬取时的时间成本。
  • 爬虫种子获取方法设备
  • [发明专利]序列爬虫边界检测方法、装置和服务器-CN201810215674.1有效
  • 李琛 - 阿里巴巴(中国)有限公司
  • 2018-03-15 - 2020-05-26 - G06F16/954
  • 本发明提供一种序列爬虫边界检测方法,包括以下步骤:预设序列爬虫边界的起点值和终点值;根据预设区间比例,选取终点值对应的终点区间;根据终点区间内符合预设采样比的数值,判断终点值的有效性;根据终点值的有效性,调整所述预设序列爬虫边界的起点值和终点值;若调整后所述边界的起点值和终点值之间的间距满足小于预设间距的条件,取调整后所述边界的起点值为所述边界的检测终点值。本发明通过预设区间比例及采样比的设置,实现在高可靠的采样频率下,较为精确地检测出爬虫的边界,提高爬虫边界的界定准确性。本发明还提供了一种序列爬虫边界检测装置和服务器。
  • 序列爬虫边界检测方法装置服务器
  • [发明专利]一种基于网络爬虫的数据处理方法、系统及云平台-CN202011618649.1有效
  • 詹能勇;刘振宇 - 金服软件(广州)有限公司
  • 2020-12-31 - 2021-07-16 - G06F16/951
  • 本发明涉及互联网与数据处理技术领域,具体而言,涉及一种基于网络爬虫的数据处理方法、系统及云平台。本发明通过获取用户输入的网页爬虫指令,网页爬虫指令包括目标网页信息和爬取对象集合,然后获取与目标网页信息和爬取对象集合对应的目标爬虫数据,并将目标爬虫数据保存至目标分布式保存节点中,其中,目标分布式保存节点是分布式存储系统中与网页对象集合对应的保存节点;相比于现有技术,本发明能够提升大规模数据爬取时爬虫数据保存的可靠性,并通过针对当前网页内容数据和历史网页内容数据进行爬取,能够充分的爬取用户所需的数据,提高数据爬取的完整性。
  • 一种基于网络爬虫数据处理方法系统平台
  • [发明专利]爬虫系统及方法-CN201910835029.4有效
  • 宋海伟 - 上海携程商务有限公司
  • 2019-09-05 - 2023-07-07 - G06F16/951
  • 本发明公开了爬虫系统及方法,其中爬虫系统包括客户端和服务端;服务端包括负载均衡服务器、集群服务器;客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数,并发送爬取参数至负载均衡服务器;负载均衡服务器用于根据爬取参数生成爬虫任务,并分配爬虫任务至集群服务器;集群服务器用于根据爬虫任务爬取目标网站的目标数据。本发明的客户端用户只需要在客户端根据预设爬取目标和目标网站的访问要求设置爬取参数,生成的爬虫任务统一由集群服务器进行处理,使得系统易于维护,减少研发时长,避免重复研发工作量及降低研发成本。
  • 爬虫系统方法

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top