主分类
A 农业
B 作业;运输
C 化学;冶金
D 纺织;造纸
E 固定建筑物
F 机械工程、照明、加热
G 物理
H 电学
专利下载VIP
公布日期
2019-08-20 公布专利
2019-08-16 公布专利
2019-08-13 公布专利
2019-08-09 公布专利
2019-08-06 公布专利
2019-08-02 公布专利
2019-07-30 公布专利
2019-07-26 公布专利
2019-07-23 公布专利
2019-07-19 公布专利
更多 »
专利权人
国家电网公司
华为技术有限公司
浙江大学
中兴通讯股份有限公司
三星电子株式会社
中国石油化工股份有限公司
清华大学
鸿海精密工业股份有限公司
松下电器产业株式会社
上海交通大学
更多 »

一种网站数据爬取方法及装置在审

申请号: CN201611249114.5 全文下载
申请日: 2016-12-29 公开/公告日: 2018-07-06
公开/公告号: CN108255870A 主分类号: G06F17/30
申请/专利权人: 中国移动通信集团浙江有限公司;中国移动通信集团公司
发明/设计人: 汤人杰;严昱超;周勋;张式勤;郭岳;于祥兵
分类号: G06F17/30
搜索关键词: 统一资源定位符 网站数据 正则表达式 权重关系 标准化处理 表获取 权重
我不想注册,点击直接下载立即登录,下载文献升级会员,免费下载

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团浙江有限公司;中国移动通信集团公司,未经中国移动通信集团浙江有限公司;中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

 
【摘要】:
发明提供了一种网站数据爬取方法及装置。该方法包括:将待爬取的网站数据进行标准化处理,待爬取的网站数据包括多个统一资源定位符URL,获取各个统一资源定位符URL的正则表达式;根据各个统一资源定位符URL的正则表达式获取各个统一资源定位符URL的权重值,获取待爬取的统一资源定位符URL的正则表达式权重关系表;根据正则表达式权重关系表获取目标待爬取的网站数据,对目标待爬取的网站数据进行爬取。本发明降低了待爬取的统一资源定位符URL的数量,提高了爬取效率,同时提高了爬取的准确性。
 
【主权项】:
1.一种网站数据爬取方法,其特征在于,包括:根据预设的规则对待爬取的网站数据进行处理,所述待爬取的网站数据包括多个统一资源定位符URL,获取各个统一资源定位符URL的正则表达式;根据所述各个统一资源定位符URL的正则表达式获取各个统一资源定位符URL的权重值,获取待爬取的统一资源定位符URL的正则表达式权重关系表;根据所述正则表达式权重关系表获取目标待爬取的网站数据,对所述目标待爬取的网站数据进行爬取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
我不想注册,点击直接下载立即登录,下载文献升级会员,免费下载

本文链接:http://www.vipzhuanli.com/patent/201611249114.5/,转载请声明来源高智网。

 
地址: 310016 *** 国省代码: 浙江;33
代理公司: 北京路浩知识产权代理有限公司 11002 代理人: 曹杰
权利要求书: 查看更多 说明书: 查看更多
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

高智网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top
定制专利/购买专利

行业大牛为您服务 快来咨询~

4008765105 / 022-60709568