[发明专利]超文本抓取方法和装置在审
申请号: | 201710228779.6 | 申请日: | 2017-04-10 |
公开(公告)号: | CN108694197A | 公开(公告)日: | 2018-10-23 |
发明(设计)人: | 张波;孟遥;孙俊 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李春晖;李德山 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种超文本抓取方法和装置。其中,基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面。对于通过第一遍历抓取的每一个当前页面,获得其第一权威度。若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。 | ||
搜索关键词: | 页面 权威度 抓取 遍历 方法和装置 链接页面 超文本页面 页面集合 链接 舍弃 指向 保留 申请 | ||
【主权项】:
1.一种超文本抓取方法,包括:基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面;其中,对于通过第一遍历抓取的每一个当前页面,获得其第一权威度;若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则:舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710228779.6/,转载请声明来源钻瓜专利网。
- 上一篇:一种WEB网络的知识管理系统
- 下一篇:信息收集设备和信息收集方法