[发明专利]用于从网站中提取信息的方法和装置有效
申请号: | 201210543961.8 | 申请日: | 2012-12-14 |
公开(公告)号: | CN103870495A | 公开(公告)日: | 2014-06-18 |
发明(设计)人: | 刘照星 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许志勇 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 网站 提取 信息 方法 装置 | ||
技术领域
本申请涉及数据处理,尤其涉及一种用于从网站中提取信息的方法和装置。
背景技术
随着计算机技术以及数据通信技术的发展,互联网上数据量越来越庞大,一个站点可以包括诸如文字、图片、音频、视频等等各种各样的数据。通常,一个站点中的核心数据通常被诸多不太重要的信息(例如,广告等)所包围。另外,基于某种原因,某些站点的提供者还会在站点中的web页面中加入干扰信息(如干扰节点、大量广告时),这些干扰信息的引入也增加了从网站中提取信息的难度。在此环境下,直接从站点上爬取的数据对于实际分析而言干扰信息过多,很难从中获得有效的、价值较高的信息。
因而,如何从网站中获得有价值的核心数据、并且排除各种无关的干扰信息,成为目前的一个研究热点。
发明内容
期望提供一种能够自动地从网站中获取核心数据的技术方案,期望该技术方案在不需要额外人工干预的情况下适用于目前互联网中的各种网站,期望该技术方案可以通过比较网站中各个web页面的内容来过滤掉各种重复信息(例如,频繁出现的广告),进而提取出web页面中的核心信息。
在本申请的一个实施方式中,提供了一种用于从网站中提取信息的方法,包括:从网站中获取位于相同深度的URL链接的集合;分析集合中的链接指向的多个web页面的代码,以获取针对多个web页面中每一个web页面的标签树;将针对集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及基于归类规则将网格树中的网格节点中的标签节点进行归类,以从网格树中提取数据。
在本申请的一个实施方式中,其中分析集合中的链接指向的多个web页面的代码,以获取针对多个web页面中每一个web页面的标签树包括:针对多个web页面中的每一个,获取web页面中的至少一个tag标签作为标签树的节点;以及基于至少一个tag标签中的一个tag标签与其他tag标签的父子关系构建标签树。
在本申请的一个实施方式中,其中基于归类规则将网格树中的网格节点中的标签节点进行归类,以从网格树中提取数据包括:按照自顶向下自左向右的顺序,按照归类规则将网格树中的一网格节点中的多个标签节点归类为至少一个组合;将至少一个组合中的标签节点个数分布满足预定阈值的网格节点作为核心节点;以及从核心节点的父节点中提取数据。
在本申请的一个实施方式中,一种用于从网站中提取信息的装置,包括:获取模块,配置用于从网站中获取位于相同深度的URL链接的集合;分析模块,配置用于分析集合中的链接指向的多个web页面的代码,以获取针对多个web页面中每一个web页面的标签树;构造模块,配置用于将针对集合中的链接指向的多个web页面的标签树进行重叠以构造网格树;以及提取模块,配置用于基于归类规则将网格树中的网格节点中的标签节点进行归类,以从网格树中提取数据。
在本申请的一个实施方式中,其中分析模块包括:针对多个web页面中的每一个,标签获取模块,配置用于获取web页面中的至少一个tag标签作为标签树的节点;以及标签树构建模块,配置用于基于至少一个tag标签中的一个tag标签与其他tag标签的父子关系构建标签树。
在本申请的一个实施方式中,其中提取模块包括:归类模块,配置用于按照自顶向下自左向右的顺序,按照归类规则将网格树中的一网格节点中的多个标签节点归类为至少一个组合;选择模块,配置用于将至少一个组合中的标签节点个数分布满足预定阈值的网格节点作为核心节点;以及数据提取模块,配置用于从核心节点的父节点中提取数据。
根据本申请各个实施方式的技术方案,提供了一种以自动方式从网站中提取信息的技术方案。在本申请的技术方案中,可以基于寻找相同深度的web页面中的tag标签的相似性,来定位web页面中的核心区域,继而提取web页面中的核心内容。进一步,还可以针对相同深度的web页面中的内容进行归类和筛选,进而获得核心内容。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施方式及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示意性示出了在网站中的某web页面的界面100的图示。
图2示意性示出了根据本申请一个实施方式的用于从网站中提取信息的方法的流程图;
图3A-图3C是根据本申请一个实施方式的基于网站中的链接建立的URL树的过程示意图;
图4A-图4C分别示意性示出了根据本申请一个实施方式的网站中的web页面的代码的示例;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210543961.8/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置