[发明专利]用于从网站中提取信息的方法和装置有效
申请号: | 201210543961.8 | 申请日: | 2012-12-14 |
公开(公告)号: | CN103870495A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 刘照星 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 网站 提取 信息 方法 装置 | ||
1.一种用于从网站中提取信息的方法,包括:
从所述网站中获取位于相同深度的URL链接的集合;
分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树;
将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及
基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据。
2.根据权利要求1所述的方法,其中从所述网站中获取位于相同深度的URL链接的集合包括:
提取所述网站中包括的URL链接的原始集合;
基于所述原始集合中的URL链接建立URL树;以及
选取所述URL树中位于相同深度的叶节点以形成所述集合。
3.根据权利要求2所述的方法,其中基于所述原始集合中的URL链接建立URL树包括:
针对所述原始集合中的第一URL链接和第二URL链接,
分别将所述第一URL链接和所述第二URL链接以“/”进行拆分;将
拆分所得的所述第一URL链接和所述第二URL链接的每个部分作为一
节点,以分别构造第一URL子树和第二URL子树;以及
将所述第二URL子树重叠至第一URL子树以形成所述URL树。
4.根据权利要求3所述的方法,其中将所述第二URL子树重叠至第一URL子树以形成所述URL树包括:
响应于所述第二URL子树与所述第一URL子树的相对应位置的节点的定义相同,将所述第二URL子树的节点重叠至所述第一URL子树的节点,其中所述位置包括节点的深度以及所述节点在所述深度中的序号。
5.根据权利要求1-4中任一项所述的方法,其中分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树包括:针对所述多个web页面中的每一个,
获取所述web页面中的至少一个tag标签作为所述标签树的节点;以及
基于所述至少一个tag标签中的一个tag标签与其他tag标签的父子关系构建所述标签树。
6.根据权利要求1-4中任一项所述的方法,其中将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树包括:
将针对第一web页面的第一标签树作为基础网格树;以及
将针对第二web页面的第二标签树重叠至所述基础网格树。
7.根据权利要求6所述的方法,其中将针对第二web页面的第二标签树重叠至所述基础网格树包括:
从所述第二标签树的根节点遍历所述第二标签树;
在遍历期间针对所述第二标签树的每个节点,将所述节点重叠至所述基础网格树中与所述节点的位置相对应的网格节点。
8.根据权利要求1-4中任一项所述的方法,其中基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据包括:
按照自顶向下自左向右的顺序,按照所述归类规则将所述网格树中的一网格节点中的多个标签节点归类为至少一个组合;
将所述至少一个组合中的标签节点个数分布满足预定阈值的网格节点作为核心节点;以及
从所述核心节点的父节点中提取数据。
9.根据权利要求8所述的方法,其中按照所述归类规则将所述网格树中的一网格节点中的多个标签节点归类为至少一个组合包括:
剔除所述至少一个组合中的其中包含的标签节点个数小于第二阈值的组合。
10.根据权利要求8所述的方法,其中所述归类规则包括将以下至少任一内容相同的两个标签节点归类为相同组合:标签名称、属性、父节点标签名称、父节点属性。
11.一种用于从网站中提取信息的装置,包括:
获取模块,配置用于从所述网站中获取位于相同深度的URL链接的集合;
分析模块,配置用于分析所述集合中的链接指向的多个web页面的代码,以获取针对所述多个web页面中每一个web页面的标签树;
构造模块,配置用于将针对所述集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及
提取模块,配置用于基于归类规则将所述网格树中的网格节点中的标签节点进行归类,以从所述网格树中提取数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210543961.8/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置