“爬虫”专利关键词查询_检索下载_查询列表_检索列表_行业专利分布_钻瓜专利网

钻瓜专利网为您找到相关结果3998个，建议您升级VIP下载更多相关专利

[发明专利]一种分布式采集公开页面数据的方法-CN201910178763.8在审
发明人：卜俊 -专利权人：湖南衍金征信数据服务有限公司
申请日： 2019-03-11 - 公布日： 2019-06-28 - 主分类号： G06F16/955 文献下载
摘要：一种分布式采集公开页面数据的方法，将爬虫程序镜像化，打包所有的编程环境依赖与软件环境依赖为镜像。将镜像使用加权轮询算法分发至各个机器节点，保证爬虫集群整体负载均衡。使用docker swarm命令形式管理爬虫任务的资源分配，完成对爬虫任务的动态增减集群资源。其优点是能解决分布式爬虫在集群环境中的资源抢占、无法动态分配资源、集群可拓展性弱等问题，使用者只需要设定每个任务的参数，如任务在集群中启动数量、任务在集群节点分布、任务对应黑名单机器节点，将爬虫代码与设置文件打包后上传集群
爬虫集群分布式采集编程环境机器节点集群资源页面数据打包动态分配资源加权轮询算法集群环境集群节点命令形式爬虫程序软件环境设置文件整体负载资源分配资源抢占自动分发镜像化拓展性上传分发均衡分配冲突保证开发管理

[发明专利]一种反爬虫方法、装置、处理器及计算机可读介质-CN202010932988.0在审
发明人：唐金满 -专利权人：北京天融信网络安全技术有限公司;北京天融信科技有限公司;北京天融信软件有限公司
申请日： 2020-09-08 - 公布日： 2020-12-11 - 主分类号： H04L29/06 文献下载
摘要：本申请公开了一种反爬虫方法、装置、处理器及计算机可读介质，所述方法包括：接收访问请求；采用M个爬虫检测机制对所述访问请求进行检测，获取M个响应结果；采用预设裁决算法针对M个响应结果进行裁决，获得裁决结果本申请实施例的反爬虫方法通过采用多个爬虫检测机制对访问请求进行检测，根据获得的多个响应结果根据需要选择相应的算法进行裁决计算，以基于裁决结果针对访问请求返回对应的数据，这样避免了单一爬虫检测机制可能造成的误判，提高了爬虫检测的准确性，还可以根据应用场景选用适应的算法进行裁决，提升了安全性，用户体验好。
一种爬虫方法装置处理器计算机可读介质

[发明专利]一种基于集成学习的反爬虫系统-CN202211616203.4在审
发明人：游棉州;陈洪钧;刘飞生;赵玉刚;杨俊;钟静婷 -专利权人：广州理工学院
申请日： 2022-12-15 - 公布日： 2023-07-07 - 主分类号： G06F21/31 文献下载
摘要：本发明提供了一种基于集成学习的反爬虫系统及方法，该系统包括：数据识别模块，用于从网站服务端的访问数据中提取用户特征数据包括单位时间内的IP段访问量，访问总量，关键页面访问总量，UserAgent出现次数，关键页面最短访问间隔，小于自设最短访问间隔的关键页面查询次数，关键页面的访问次数的cookies数，查询不同页面的次数，并且转换成用户特征编码；爬虫识别模块，用于通过用户特征编码进行学习，并根据用户特征编码判断用户是否为爬虫用户，是爬虫用户则标记此IP地址为爬虫用户并禁止此IP地址的访问，是普通用户则允许此用户继续访问。本发明可以提高识别爬虫的精准度，降低误识别普通用户的概率。
一种基于集成学习爬虫系统

[发明专利]大数据算法匹配方法、装置、设备及介质-CN202310818889.3在审
发明人：任政 -专利权人：深圳全企通信息技术有限公司
申请日： 2023-07-05 - 公布日： 2023-09-12 - 主分类号： G06F16/951 文献下载
摘要：本申请公开了一种大数据算法匹配方法、装置、设备及介质，其中，该大数据算法匹配方法包括：通过采用分布式调度系统对可用资源实时进行监测和管理，获取携带至少一个可用节点的可用资源列表；获取爬虫任务列表，爬虫任务列表包括至少一组爬虫任务；采用优先级自适应算法实时将爬虫任务列表中的每一爬虫任务与可用资源列表进行匹配，用以获取目标执行节点；通过目标执行阶段执行爬虫任务。
数据算法匹配方法装置设备介质

[发明专利]一种基于链接分析的聚焦爬虫方法-CN201410227771.4有效
发明人：屈鸿;周安林;张马路;孙明;邵领 -专利权人：电子科技大学
申请日： 2014-05-27 - 公布日： 2017-10-20 - 主分类号： G06F17/30 文献下载
摘要：一种基于链接分析的聚焦爬虫方法，属于互联网信息检索、搜索引擎等领域，解决现有爬虫抓取准确率不高的问题，包括如下步骤抓取网页，将网页和目标样本网页的结构进行比较，确定目标网页，从网站入口链接开始，记录爬虫到目标网页的每一条链接路径，建立目标网页链接树；分析目标网页链接树，归纳链接树中目标网页路径上的链接，替换链接树中的链接，形成链接模版树；爬虫使用链接模版树作为导航，抓取与链接模版树相匹配中的网页链接，直到整个抓取循环过程结束，本发明的爬虫能够根据链接模版树的导航，在抓取网页的过程中，只抓取有效的链接，从而保证爬虫抓取网页的效率和准确率。
一种基于链接分析聚焦爬虫方法

[发明专利]一种网络爬虫爬取路径的展示方法和装置-CN201811326724.X有效
发明人：汪文星;刘柏;陆炯炯 -专利权人：网易（杭州）网络有限公司
申请日： 2018-11-08 - 公布日： 2021-01-15 - 主分类号： G06F16/953 文献下载
摘要：本发明实施例提供了一种网络爬虫爬取路径的展示方法和装置，本发明实施例通过后端可以获取网络爬虫爬取的网页节点的标识信息，以及网页节点的爬取顺序，然后生成网页节点之间的层级关系，接着根据网页节点的标识信息和网页节点之间的层级关系，生成爬取路径数据，实现了在网络爬虫运行过程中，后端对网络爬虫爬取的数据进行实时处理，节省了人工离线处理的时间，提高了爬虫路径数据处理效率。进一步，在生成爬取路径数据之后，为每一个爬取路径数据分配标识信息，并保存于数据库中，保证了网络爬虫爬取数据记录的高效性和安全性，同时也节省了服务器的存储空间。
一种网络爬虫路径展示方法装置

[发明专利]爬虫种子获取方法与设备及爬虫爬取方法与设备-CN201110232595.X有效
发明人：吴滨华;王祖海 -专利权人：北京星网锐捷网络技术有限公司
申请日： 2011-08-15 - 公布日： 2012-02-15 - 主分类号： H04L29/08 文献下载
摘要：本发明提供一种爬虫种子获取方法与设备及爬虫爬去方法与设备。爬虫种子获取方法包括：根据预设检索词词典和目标导航网站的URL特性，构造动态页面请求；将动态页面请求发送给目标导航网站的服务器；根据预设提取策略，从服务器根据动态页面请求返回的检索结果页面中提取目标URL，目标URL为检索结果页面中的URL的主域名地址；对目标URL进行唯一化处理，获取唯一化目标URL，将唯一化目标URL作为爬虫种子。本发明技术方案能够提供大量的、离散度大的爬虫种子，从而缩短形成主流URL的时间，提高主流URL的覆盖性，降低爬虫系统进行爬取时的时间成本。
爬虫种子获取方法设备

[发明专利]一种面向海量数据源的网络爬虫动态带宽分配方法及系统-CN201610536834.3有效
发明人：金俏;杨绪升;杜鲁;朱卫平;李述;乔瑞凯;朱文鹏;范昊深 -专利权人：武汉烽火普天信息技术有限公司
申请日： 2016-07-08 - 公布日： 2019-11-19 - 主分类号： H04L12/911 文献下载
摘要：本发明涉及一种面向海量数据源的网络爬虫动态带宽分配方法及系统，所述方法包括以下步骤：S1、通过若干爬虫程序带宽占比进行第一次分配；S2、每隔一段时间通过各爬虫程序对带宽进行重新预测和分配；S3、若某个爬虫程序停止后释放其所占用资源，并通过爬虫程序重新进行带宽分配；S4、当所有爬虫程序均停止，则分配结束。
一种面向海量数据源网络爬虫动态带宽分配方法系统

[发明专利]序列爬虫边界检测方法、装置和服务器-CN201810215674.1有效
发明人：李琛 -专利权人：阿里巴巴（中国）有限公司
申请日： 2018-03-15 - 公布日： 2020-05-26 - 主分类号： G06F16/954 文献下载
摘要：本发明提供一种序列爬虫边界检测方法，包括以下步骤：预设序列爬虫边界的起点值和终点值；根据预设区间比例，选取终点值对应的终点区间；根据终点区间内符合预设采样比的数值，判断终点值的有效性；根据终点值的有效性，调整所述预设序列爬虫边界的起点值和终点值；若调整后所述边界的起点值和终点值之间的间距满足小于预设间距的条件，取调整后所述边界的起点值为所述边界的检测终点值。本发明通过预设区间比例及采样比的设置，实现在高可靠的采样频率下，较为精确地检测出爬虫的边界，提高爬虫边界的界定准确性。本发明还提供了一种序列爬虫边界检测装置和服务器。
序列爬虫边界检测方法装置服务器

[发明专利]一种基于网络爬虫的数据处理方法、系统及云平台-CN202011618649.1有效
发明人：詹能勇;刘振宇 -专利权人：金服软件（广州）有限公司
申请日： 2020-12-31 - 公布日： 2021-07-16 - 主分类号： G06F16/951 文献下载
摘要：本发明涉及互联网与数据处理技术领域，具体而言，涉及一种基于网络爬虫的数据处理方法、系统及云平台。本发明通过获取用户输入的网页爬虫指令，网页爬虫指令包括目标网页信息和爬取对象集合，然后获取与目标网页信息和爬取对象集合对应的目标爬虫数据，并将目标爬虫数据保存至目标分布式保存节点中，其中，目标分布式保存节点是分布式存储系统中与网页对象集合对应的保存节点；相比于现有技术，本发明能够提升大规模数据爬取时爬虫数据保存的可靠性，并通过针对当前网页内容数据和历史网页内容数据进行爬取，能够充分的爬取用户所需的数据，提高数据爬取的完整性。
一种基于网络爬虫数据处理方法系统平台

[发明专利]反爬虫方法、装置、电子设备及计算机可读存储介质-CN202110597257.X有效
发明人：龙腾飞 -专利权人：深圳赛安特技术服务有限公司
申请日： 2021-05-31 - 公布日： 2022-10-14 - 主分类号： H04L9/40 文献下载
摘要：本发明涉及数据安全技术，揭露了一种反爬虫方法，包括：获取用户的前端浏览记录，提取前端浏览记录中的浏览地址与浏览时间；根据浏览地址与浏览时间计算用户行为指标；若用户行为指标大于预设阈值，对用户进行访问限制；若用户行为指标小于或等于预设阈值，获取预设时间段内用户访问的目标网页的反爬虫验证参数；根据反爬虫验证参数，构建用户对目标网页的访问代价函数；迭代访问代价函数，得到访问代价值，当所述访问代价值小于所述反爬虫验证参数时本发明还提出一种反爬虫装置、设备及存储介质。本发明可以提高反爬虫的精确度。
爬虫方法装置电子设备计算机可读存储介质

[发明专利]爬虫系统及方法-CN201910835029.4有效
发明人：宋海伟 -专利权人：上海携程商务有限公司
申请日： 2019-09-05 - 公布日： 2023-07-07 - 主分类号： G06F16/951 文献下载
摘要：本发明公开了爬虫系统及方法，其中爬虫系统包括客户端和服务端；服务端包括负载均衡服务器、集群服务器；客户端用于根据预设爬取目标和目标网站的访问要求生成爬取参数，并发送爬取参数至负载均衡服务器；负载均衡服务器用于根据爬取参数生成爬虫任务，并分配爬虫任务至集群服务器；集群服务器用于根据爬虫任务爬取目标网站的目标数据。本发明的客户端用户只需要在客户端根据预设爬取目标和目标网站的访问要求设置爬取参数，生成的爬虫任务统一由集群服务器进行处理，使得系统易于维护，减少研发时长，避免重复研发工作量及降低研发成本。
爬虫系统方法

[发明专利]一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法-CN202010636291.9有效
发明人：周亚东;岳天一;刘晓明;沈超 -专利权人：西安交通大学
申请日： 2020-07-04 - 公布日： 2023-03-21 - 主分类号： G06F16/951 文献下载
摘要：一种基于网站流量日志数据与优化谱聚类算法的恶意爬虫检测方法，包括：预处理日志数据，过滤非页面请求，从请求记录中筛选相关字段用于爬虫检测；为每个cookie生成页面请求序列，基于页面请求序列，计算任意两cookie间行为相似度；构建以cookie为节点的完全图，任意两cookie节点间边的权重等于cookie间行为相似度；使用优化谱聚类算法对图进行社区划分；设计社区特征，并设置阈值进行爬虫社区识别；使用核密度估计算法对剩余未发现的爬虫本发明能够为网站监控爬虫、制定拦截规则、保护公司数据财产与用户隐私等提供技术支持；本发明基于易于获取的流量日志数据实现爬虫检测，具有较高的实际应用价值。
一种基于网站流量日志数据优化谱聚类算法恶意爬虫检测方法

[实用新型]一种爬虫驱避装置及门体-CN202020375864.2有效
发明人：许恺凡;任开山;朱晓阳;魏懿;李诚;李军 -专利权人：能多洁（中国）环境科技有限公司上海分公司
申请日： 2020-03-23 - 公布日： 2020-11-24 - 主分类号： A01M29/12 文献下载
摘要：本实用新型公开了一种爬虫驱避装置，包括盒体以及设在盒体内的吸附载体，吸附载体上吸附有具有驱避性的杀虫剂，盒体上开有用于杀虫剂向外挥发的通孔，使用时，通过盒体将爬虫驱避装置安装在门体底部或门体侧边上，利用具有驱避作用的杀虫剂在不直接接触的情况下对蟑螂等爬虫进行驱赶，既能够有效避免蟑螂等爬虫穿过门缝进入室内，又能够减少杀虫剂的直接使用，减少安全风险，节约成本，降低爬虫抗药性产生的概率。本实用新型还公开了一种包括上述爬虫驱避装置的门体。
一种爬虫装置

[发明专利]一种分布式垂直爬虫服务系统的优化方法-CN201510579329.2在审
发明人：闫峰;李桂兵;魏继超 -专利权人：广州极数宝数据服务有限公司
申请日： 2015-09-11 - 公布日： 2016-01-20 - 主分类号： G06F17/30 文献下载
摘要：本发明的目的在于提供一种分布式垂直爬虫服务系统的优化方法，该方法将原有的爬虫服务系统拆分为下载服务和页面分析逻辑两部分，且将该下载服务和分析逻辑均部署在多个云主机上，任务队列也拆分为下载任务队列和分析任务队列本发明方法优化的爬虫服务系统能够提升垂直爬虫在处理大量数据信息时的效率，增强对对采用了延迟加载的动态HTML页面的抓取能力，对于页面下载逻辑和分析处理逻辑进行有效地管理和扩展，对网站主的爬虫防御策略提供有效地规避
一种分布式垂直爬虫服务系统优化方法