[发明专利]一种基于枚举的网络实体爬取方法有效

专利信息
申请号: 201410003459.7 申请日: 2014-01-03
公开(公告)号: CN103699687B 公开(公告)日: 2017-02-01
发明(设计)人: 肖仰华;张俊骏;汪卫 申请(专利权)人: 复旦大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海正旦专利代理有限公司31200 代理人: 陆飞,王洁平
地址: 200433 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 枚举 网络 实体 方法
【说明书】:

技术领域

发明属于网络爬虫应用技术领域,具体涉及一种基于枚举的网络实体爬取方法。

背景技术

如今网络上的信息越来越多,而在研究一些需要大量实体及其属性的问题时(例如知识图谱构建、垂直搜索、比较购物等),需要去获取特定的一些实体。获取实体的方法无非有两种:(1)利用包含目标实体的网站所直接提供的数据下载接口或API接口;(2)利用网页爬虫来进行网页爬取,再通过解析来获得实体及其属性。方法(1)虽然会比较方便快捷,但是会受到目标网站的访问权限限制、数据结构限制等,而且这些限制无法得到主观的改善,故经常不能满足实际应用的需求。所以本发明的目标是利用网页爬虫及相关的技术、策略来进行针对性的实体爬取。

现有的网页爬取策略主要是基于关系来进行爬取。例如搜索引擎的爬虫(谷歌、百度、必应),就是通过不停地爬取页面上的超链接来实现的。当然在绝大多数实际需求中,没有必要去全部爬取,更多时候会将超链接的域名限制在某一个较小的范围内。在一些情况中,实体之间并不直接存在关系,而是通过一些间接的关系来连接(比如实体的属性),这时候就需要进行实体->属性->实体循环的方式来进行爬取了。

上述基于关系的爬取策略容易实现,而且准确度很有保证,因而被广泛使用。然而,基于关系的爬取策略需要实体/页面之间有足够多的关系才能进行下去。如果实体/页面之间的关系太少甚至于没有关系,那么上述策略的代价就可能越来越大,乃至于无法实行。而且,基于关系的策略对覆盖率没有保证,因为无论多高质量的数据集,总会有不少孤立点(即与其他点没有关系的点)存在,这种孤立点在基于关系的爬取策略中是无法处理的。另外,鉴于爬取的实体规模可能会很庞大,在很多情况中需要将爬取任务分配至多台机器来进行,此种情况称为分布式爬取。基于关系的爬取策略在分布式爬取时会产生额外机器之间的通信代价和结果去重操作,并且每次爬下网页文本就需要立即进行解析以获取其中的链接。

相比于基于关系的爬取策略,基于枚举的URL爬取策略有如下几个优点:

覆盖率能得到很好的保证。由于基于枚举的策略并不依赖于相关链接,因此孤立点也能得到很好的覆盖;

适用于深层网络的情形。深层网络中的实体之间完全不存在链接,因此基于关系的策略是行不通的,而基于枚举的策略则不会受到影响;

当进行分布式爬取时,不会产生额外的时间和空间代价。如果采用基于枚举的爬取策略,就额外的机器之间的通信代价和结果去重操作,也不需要在线上进行文本解析操作。

上述的基于枚举的爬取策略虽然有诸多好处,但并不是每一个网站都会把实体所对应的网页地址(URL)设计成直接枚举的数字形式。但不可直接枚举不代表不可枚举,事实上,可以找到不少网站,其存储实体所对应的URL虽然不可直接枚举(事实上是直接枚举代价太大),但是可以通过变化来将之改变成可以枚举的形式。

发明内容

本发明的目的在于提供一种基于枚取的网络实体爬取方法,其通过生成一个算法框架将一个不可直接枚举的URL集合转变为可以枚举的集合,从而实现基于枚举的爬取尽可能多的网络实体的目的。

本发明中,通过一定采样方式、采样规模来对目标网络实体进行一定规模的采样并确定其网页地址URL是否可转化为可枚举的表达式,如果可转化则进行样本分解;将分解后的样本进行k均值聚类操作,并进行类内噪音去除;利用特征合并、特征补全和最优化枚举顺序的方法来生成一个或者一组可以枚举的表达式。

本发明提供的一种基于枚举的网络实体爬取方法,包括三个部分:对目标网络实体进行采样和预处理、对样本进行特征聚类和特征合并及生成可枚举表达式。 

一、对目标网络实体进行采样和预处理

通过一定采样方式、采样规模来对目标网络实体进行一定规模的采样并确定其URL是否可转化为可枚举的表达式,如果可转化则进行样本分解。

采样方式

采样的方式主要有两种,第一种是通过某一个网络实体对应的URL文本中的链接来找到另外的网络实体,即基于关系的采样。另一种方法是通过存储目标网络实体的网站所提供的查询机制来进行采样。

采样规模

采样规模要视具体的目标网络实体规模而定,目标网络实体规模越大其对应的采样规模也越大。按照实际试验获得的经验,初始化的采样规模定为10,0,000并进行后续处理,如果结果不理想则进行规模调整,即适当增大采样规模。

采样预处理

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410003459.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top