[发明专利]超文本抓取方法和装置在审
申请号: | 201710228779.6 | 申请日: | 2017-04-10 |
公开(公告)号: | CN108694197A | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 张波;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 页面 权威度 抓取 遍历 方法和装置 链接页面 超文本页面 页面集合 链接 舍弃 指向 保留 申请 | ||
本申请公开了一种超文本抓取方法和装置。其中,基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面。对于通过第一遍历抓取的每一个当前页面,获得其第一权威度。若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
技术领域
本申请涉及信息处理领域,具体地涉及互联网领域,更具体地涉及一种超文本抓取方法、超文本抓取装置以及程序。
背景技术
网络爬虫是一种自动获取网页内容或称超文本的程序。传统爬虫从一个或若干初始网页或称种子页面的URL开始,获得初始网页上的链接(URL),在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。另外一些不常使用的名字还有蚂蚁、自动索引或者蠕虫。
传统的网络爬虫使用遍历算法,并在遍历获取的页面中选择主题相关度高的链接进行继续抓取,对于主题不相关的页面则直接丢弃,直到满足一定的条件结束。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种超文本抓取方法,包括:基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
根据本发明的另一个方面,提供了一种超文本抓取装置,包括:遍历单元,用于基于第一种子页面,对链接页面进行第一遍历以抓取超文本页面;权威度评估单元,用于对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;以及训练页面库,所述训练页面库中的页面的权威度已经基于其包含的链接所指向的页面的权威度进行了调整,成为第二权威度;其中,所述遍历单元被配置为:若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从训练页面库中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历。
依据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
根据本申请的超文本抓取方法、装置和程序,当抓取到主题不是很相关的页面时,网络爬虫的遍历不一定在该页面停止,而是要考察与该页面相关联的页面中主题相关度较高的链接继续遍历,从而避免遗漏某些页面。
通过以下结合附图对本发明的优选实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本申请的以上和其它优点和特征,下面结合附图对本申请的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本申请的典型示例,而不应看作是对本申请的范围的限定。在附图中:
图1A是本申请的超文本抓取方法的一种实施方式的示意流程图;
图1B是本申请的超文本抓取方法的另一种实施方式的示意流程图;
图2是本申请的一种实施方式中与当前页面相关联的链接页面的示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710228779.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种WEB网络的知识管理系统
- 下一篇:信息收集设备和信息收集方法