专利名称
主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2023-10-24 公布专利
2023-10-20 公布专利
2023-10-17 公布专利
2023-10-13 公布专利
2023-10-10 公布专利
2023-10-03 公布专利
2023-09-29 公布专利
2023-09-26 公布专利
2023-09-22 公布专利
2023-09-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »
钻瓜专利网为您找到相关结果9056705个,建议您升级VIP下载更多相关专利
  • [发明专利]一种主机负荷智能感知的定向爬虫方法及系统-CN201911353456.5在审
  • 凌建辉;张启航;王天昊;曹勇;王禄生;张柏礼 - 东南大学
  • 2019-12-25 - 2020-05-08 - G06F16/951
  • 本发明公开了一种主机负荷智能感知的定向爬虫方法及系统,方法包括:(1)打开浏览并定位到待站点,通过模拟浏览行为实现页面的跳转以及读取;(2)根据设置的检索条件自动生成需要页面的URL集合;(3)根据爬虫任务的重要性和紧迫程度对URL集合进行优先级分级,划分为若干个子集合,为每个子集合分配一个或多个线程来处理;(4)每个线程在进行数据时所采用的方法为:A、对于URL中待的条目,抓取相应内容的关键字词或标题,进行语义分析,并根据语义分析结果筛选内容;B、记录当前页面响应时间,并与历史页面响应时间比较,从而感知主机/网络的繁忙程度,动态地调整速度。
  • 一种主机负荷智能感知定向爬虫方法系统
  • [发明专利]一种爬虫系统IO优化方法及装置-CN201711088268.5在审
  • 陈开冉;邓楚健 - 广州探迹科技有限公司
  • 2017-11-07 - 2018-04-20 - G06F17/30
  • 该方法包括第一结果处理缓存接收的第一爬虫,当确定缓存的结果的数量超过聚合阈值,将多个结果按照首尾拼接方法写入到聚合文件中,并记录每个结果的位置偏移量;根据聚合文件的内容生成在大文件对象存储系统内存储的聚合路径,并将聚合文件发送至聚合路径下;根据聚合文件生成包含每个结果,每个结果的位置偏移量,聚合路径以及每个爬虫的编号的聚合日志,并将聚合日志发送至日志处理
  • 一种爬虫系统io优化方法装置
  • [发明专利]数据方法、装置、计算机设备和存储介质-CN201811118100.9有效
  • 李晨光 - 深圳壹账通智能科技有限公司
  • 2018-09-26 - 2022-09-02 - H04L61/58
  • 本申请涉及一种基于数据资源的数据方法、装置、计算机设备和存储介质。所述方法包括:接收数据请求,并根据数据请求获取正常访问的用户代理的参数值,将网络爬虫的用户代理的取值设置为参数值,获得可用网络爬虫,利用可用网络爬虫,在预设时间内抓取代理网站上的有效IP地址,利用代理缓存服务绑定多个有效IP地址,并根据多个有效IP地址生成代理IP地址表,利用可用网络爬虫,连接代理缓存服务对应的多个有效IP地址,进行数据。采用本方法有利于通过网站对于网络爬虫的属性检测,减少被拦截情况,并及时更换网络爬虫使用的IP地址,保证网络爬虫可使用有效地址,实现数据操作。
  • 数据方法装置计算机设备存储介质
  • [发明专利]招投标相关网页任务调度方法及系统-CN201811481861.0有效
  • 杨敏 - 贵阳高新数通信息有限公司
  • 2018-12-05 - 2022-10-28 - G06F16/951
  • 本发明涉及网络信息获取领域,具体涉及一种招投标相关网页任务调度方法及系统,该系统包括:用户终端、总服务和多台子服务;所述用户终端用于用户关注、购买和查看对应企业网站上的信息;所述总服务器用于获取企业网站日均访问人数、日访问时间记录信息、企业信息更新时间信息以及用户查看信息规律表,然后根据获取的所有信息生成分配模型,并根据生成的分配模型分配子服务进行信息。本方案适用于分别针对不同用户进行其关注信息的
  • 投标相关网页任务调度方法系统
  • [发明专利]目标语料数据的方法、装置及存储介质-CN201810876287.2有效
  • 吴壮伟 - 平安科技(深圳)有限公司
  • 2018-08-03 - 2023-04-07 - G06F16/955
  • 本发明提供一种目标语料数据的方法,该方法在接收到目标信息的请求后,首先确定目标语料所需的规则,调用规则,依次从初始语料库中第一标题页URL列表、第一列表页URL列表及第一内容页URL列表,然后第一标题页URL列表对应的第二列表页URL列表,生成第三列表页URL列表,第三列表页URL列表对应的第二内容页URL列表,生成第三内容页URL列表,以获取内容页数据,最后利用目标信息规则取出目标信息利用本发明,可以提高目标语料数据的效率及准确性。
  • 目标语料数据方法装置存储介质
  • [发明专利]一种增量更新与技术-CN201310040088.5在审
  • 尹科 - 北京英富森信息技术有限公司
  • 2013-02-01 - 2014-08-06 - G06F17/30
  • 本发明涉及一种增量更新与技术,包括:判断待网页内容的UR是否为静态页面的链接地址;当待网页内容的URL为静态页面的链接地址时,判断所述URL是否过,是则用所述URL替换已存储的URL;否则,根据日期创建年/月/日/URL链接地址的文件夹,将待网页的内容存储到所述文件夹中。本发明通过每次获取待网页的URL时,判断所述URL是属于静态页面的还是动态页面的链接地址。如果是静态页面的,则判断所述URL是否已经过,如已经过则不进行,直接将已经过的URL替换成现有的链接地址存储,实现了静态页面的增量更新存储的要求,从而减少爬虫系统更新页面的工作量,提升了页面的新鲜度
  • 一种增量更新技术
  • [发明专利]网站数据方法、装置、计算机设备及可读存储介质-CN201710620026.X有效
  • 李江华;李武奇 - 深圳壹账通智能科技有限公司
  • 2017-07-26 - 2020-08-28 - G06F16/955
  • 本发明涉及一种网站数据方法、装置、计算机设备及可读存储介质,该方法包括获取待网站数据的数据标识和产生日期;获取本地存储的与数据标识对应的网站数据的产生日期;当待网站数据的产生日期与本地存储的网站数据的产生日期不同时,则并输出产生日期在本地存储的网站数据的产生日期之前的待网站数据;当所的待网站数据的格式与本地存储的网站数据的格式相同时,则输出本地存储的产生日期与所述待网站数据的产生日期相同的网站数据上述的网站数据方法、装置、计算机设备及可读存储介质,可以直接输出本地存储的网站数据,减少的数据量,从而可以提高数据的输出显示速度。
  • 网站数据方法装置计算机设备可读存储介质
  • [发明专利]网页链接的方法及装置-CN201510463687.7有效
  • 孙德彬;冯鸳鹤 - 北京国双科技有限公司
  • 2015-07-31 - 2019-12-10 - G06F16/951
  • 本发明公开了一种网页链接的方法及装置。该网页链接的方法包括:获取失败的网页链接;基于超时时间参数集合对网页链接重新进行,得到结果,其中,超时时间参数集合中包括至少两个不同的超时时间参数;根据结果判断网页链接是否为无效的网页链接;以及如果判断出网页链接为无效的网页链接,则不再对网页链接进行。通过本发明,解决了相关技术中对无效的网页链接进行会造成爬虫资源的浪费的问题。
  • 网页链接方法装置
  • [发明专利]网页请求处理方法和装置-CN201510728872.4有效
  • 何熠皓 - 北京国双科技有限公司
  • 2015-10-30 - 2020-02-28 - G06F16/951
  • 本申请公开了一种网页请求处理方法和装置。其中,该方法包括:获取新解析得到的待请求,其中,待请求包括待页面的链接;判断是否存在存储文件,其中,存储文件用于存储待请求;在判断出不存在存储文件时,将新解析得到的待请求存储于请求队列中;以及在判断出存在存储文件时,将新解析得到的待请求存储于存储文件中。本申请解决了直接将大量的网页请求存储于内存中耗费内存空间的技术问题。
  • 网页请求处理方法装置
  • [发明专利]一种通用型分布式爬虫调度系统-CN201510183709.4有效
  • 吴骏;王涛;刘勇;陈嘉伟;吴和生;谢俊元 - 南京大学
  • 2015-04-17 - 2018-04-06 - G06F17/30
  • 一种通用型分布式爬虫调度系统,包括控制和爬虫,控制包含显示模块和调度模块,其中显示模块用于查看各种任务进展信息、日志以及触发对爬虫的控制,调度模块包含通信区、维持区、数据保持区、数据缓存区;爬虫包含模块和调度模块,其中模块实现具体的爬虫功能;调度模块包含通信区、维持区、数据保持区、数据缓存区;调度模块中的通信区之间采用Socket长连接异步通信方式完成互联;针对大数据时代获取数据效率低,存在丢失等问题,提出普适型、通用型的分布式爬虫系统框架,在保证过程高速、有效、准确的同时兼容多样化的策略。
  • 一种通用型分布式爬虫调度系统
  • [发明专利]数据方法及装置-CN201610096587.X在审
  • 李可欣 - 北京国双科技有限公司
  • 2016-02-22 - 2017-08-29 - G06F17/30
  • 本发明公开了一种数据方法及装置,涉及数据处理技术领域,解决了现有的数据方法数据重复率较高的问题。本发明的主要技术方案为接收爬虫程序发送的页面请求信息,所述页面请求信息中包括列表页链接;判断缓存队列中是否存在所述列表页链接,所述缓存队列中存储有爬虫程序已经过的列表页链接;若所述缓存队列中不存在所述列表页链接,则向所述爬虫程序发送所述页面请求的确认信息,以使得所述爬虫程序对所述列表页链接对应的页面进行。本发明主要用于网页数据。
  • 数据方法装置

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top