[发明专利]用于从网站中提取信息的方法和装置有效

专利信息
申请号: 201210543961.8 申请日: 2012-12-14
公开(公告)号: CN103870495A 公开(公告)日: 2014-06-18
发明(设计)人: 刘照星 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京国昊天诚知识产权代理有限公司 11315 代理人: 许志勇
地址: 英属开曼群岛大开*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 网站 提取 信息 方法 装置
【权利要求书】:

1.一种用于从网站中提取信息的方法,包括:

从所述网站中获取位于相同深度的URL链接的集合;

分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树;

将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及

基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据。

2.根据权利要求1所述的方法,其中从所述网站中获取位于相同深度的URL链接的集合包括:

提取所述网站中包括的URL链接的原始集合;

基于所述原始集合中的URL链接建立URL树;以及

选取所述URL树中位于相同深度的叶节点以形成所述集合。

3.根据权利要求2所述的方法,其中基于所述原始集合中的URL链接建立URL树包括:

针对所述原始集合中的第一URL链接和第二URL链接,

分别将所述第一URL链接和所述第二URL链接以“/”进行拆分;将

拆分所得的所述第一URL链接和所述第二URL链接的每个部分作为一

节点,以分别构造第一URL子树和第二URL子树;以及

将所述第二URL子树重叠至第一URL子树以形成所述URL树。

4.根据权利要求3所述的方法,其中将所述第二URL子树重叠至第一URL子树以形成所述URL树包括:

响应于所述第二URL子树与所述第一URL子树的相对应位置的节点的定义相同,将所述第二URL子树的节点重叠至所述第一URL子树的节点,其中所述位置包括节点的深度以及所述节点在所述深度中的序号。

5.根据权利要求1-4中任一项所述的方法,其中分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树包括:针对所述多个web页面中的每一个,

获取所述web页面中的至少一个tag标签作为所述标签树的节点;以及

基于所述至少一个tag标签中的一个tag标签与其他tag标签的父子关系构建所述标签树。

6.根据权利要求1-4中任一项所述的方法,其中将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树包括:

将针对第一web页面的第一标签树作为基础网格树;以及

将针对第二web页面的第二标签树重叠至所述基础网格树。

7.根据权利要求6所述的方法,其中将针对第二web页面的第二标签树重叠至所述基础网格树包括:

从所述第二标签树的根节点遍历所述第二标签树;

在遍历期间针对所述第二标签树的每个节点,将所述节点重叠至所述基础网格树中与所述节点的位置相对应的网格节点。

8.根据权利要求1-4中任一项所述的方法,其中基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据包括:

按照自顶向下自左向右的顺序,按照所述归类规则将所述网格树中的一网格节点中的多个标签节点归类为至少一个组合;

将所述至少一个组合中的标签节点个数分布满足预定阈值的网格节点作为核心节点;以及

从所述核心节点的父节点中提取数据。

9.根据权利要求8所述的方法,其中按照所述归类规则将所述网格树中的一网格节点中的多个标签节点归类为至少一个组合包括:

剔除所述至少一个组合中的其中包含的标签节点个数小于第二阈值的组合。

10.根据权利要求8所述的方法,其中所述归类规则包括将以下至少任一内容相同的两个标签节点归类为相同组合:标签名称、属性、父节点标签名称、父节点属性。

11.一种用于从网站中提取信息的装置,包括:

获取模块,配置用于从所述网站中获取位于相同深度的URL链接的集合;

分析模块,配置用于分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树;

构造模块,配置用于将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及

提取模块,配置用于基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210543961.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top