[发明专利]基于属性重现和标签路径的网页抽取方法无效

专利信息
申请号: 201210097167.5 申请日: 2012-04-05
公开(公告)号: CN102760150A 公开(公告)日: 2012-10-31
发明(设计)人: 尹刚;王怀民;李翔;朱沿旭;史殿习;王涛;袁霖;余跃 申请(专利权)人: 中国人民解放军国防科学技术大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京安博达知识产权代理有限公司 11271 代理人: 徐国文
地址: 410073 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 属性 重现 标签 路径 网页 抽取 方法
【说明书】:

技术领域

发明涉及一种基于属性重现和标签路径的网页抽取方法,特别是针对开源社区等实体重现较少而属性重现较多的网站,一种不同于传统基于重现实体的模板探测与网页抽取方法。

背景技术

Internet的关键作用之一是数据展现。它包含着由各个领域的实体构成的信息。在此,实体指某网站数据模型中的对象实例,并常常对应于一个网页,如一个电子产品,一个开源项目等等。抽取这类信息对于构建对比式在线购物和垂直搜索引擎等web应用有重要价值。

同一领域内的不同网站往往有相同的数据。举例来说,用户能在apple.com中找到关于一款iPod的信息,而这些信息也出现在amazon.com中。一般地,根据粒度可将网页中的数据重现分为两类:一类在实体级别另一类在属性级别。在此,我们将实体视为属性的集合,而每一个属性由其名-值对组成。实体级别的重现指不同网站的某些数据是指某一个概念实体。如上面关于iPod的例子就是这样的一种重现。同时,属性级的重现描述了一种更为常见的情形,即两个或以上的网页中都出现的部分属性。如amazon.com中SAMSUNG S5830手机和htc.com中的HTC h710e共同拥有属性(‘operating system’,‘Android’),尽管这两个产品是不同的实体。从上可知,实体重现是属性重现的一种特例。

数据重现现象给信息抽取技术带来了新的机遇与挑战。重复的数据无形中成为异构网站共同的抽取样本,只要预先知道小部分重复数据就可以对其中任意一个网站的小部分页面进行标注,进而用监督学习的方式挖掘抽取规则,完成对整个网站其他页面的信息抽取。然而如何提前获取重复数据,如何利用他们对网页进行自动标注以及如何对已标注网页进行规则挖掘等问题值得深入研究。

之前的一些实验通过抽取餐馆网站和参考书目网站验证了使用实体级重现方法的有效性。然而,实体级重现在某些领域并不多见,如开源社区中的项目实体和社交网络中的用户个人简介。对于电子产品来说,一个品牌的产品往往存在于在各个在线商店中,而社交网站却很少有重复的用户简介。同时,一般情况下一个开源项目只存在于一个开源社区中,某个项目只有在两种情况下才会出现在多个开源社区中:1.项目迁移2.项目镜像。项目迁移时,两个社区中同一项目的信息也会随时间的推移而变得不一致,而项目镜像只出现在少数成熟项目上,绝大多数孵化期的开源项目是没有镜像的。综上,重现实体在开源社区并不多见,然而幸运地是我们发现属性级重现是普遍存在的。举例来说,不同社区中的不同开源项目的许可证可能都是“GPL”或编程语言都是“C++”。我们的方法就是利用这样的属性重现来进行抽取。

另外,在抽取方法中如何对网页模板进行抽象也是网页抽取的重要问题。没有具体给出网页模板数学模型的抽取方法是难以实现的,部分抽取方法将模板定义为网页去掉后台数据的各个字符串,却忽略了HTML网页的树状结构,因此不能有效的定位网页内容。

发明内容

本发明要解决的问题是:针对现有网页抽取技术遇到的重现实体不够充分,模板抽象不够有效等问题,提出一种更为有效且通用的网页信息抽取方法,即基于属性重现和标签路径对网页进行抽取。本发明的技术方案包括以下步骤:

步骤1、搭建种子集合。通过抽取目标网站或同领域其它网站中的属性值列表页面,构建属性值种子集合,集合中包含了目标属性的部分取值。

步骤2、抽取相对标签路径。获取目标网站部分样本页面,使用HTML解析工具,以属性名及其属性值为输入,分别查找其对应的标签节点,抽取目标网站中各属性在属性名和值之间的相对标签路径。

步骤3、构建训练样本库。使用网络爬虫下载目标网站中的部分网页,样本数大于一预先设定值,将获取的HTML源代码存放到本地数据库。

步骤4、属性标注。根据种子集合中的种子属性值对训练样本库应用字符串相似匹配,查找并标注每一个种子属性值在训练网页中的所有重现,记录每次重现对应的标签路径。

步骤5、标签路径选取。对同一属性选取出现次数最多的标签路径,作为抽取训练样本外其它网页信息的抽取规则。

步骤6、属性定位与抽取。应用所获取的标签路径,从各自的根节点出发访问目标网站中的其他网页HTML树,定位属性值所在的标签,抽取其中包含的文本字符串。

步骤7、属性名验证。借助属性名-属性值相对标签路径,获取步骤6中属性值对应的属性名,并采用字符串匹配与真实属性名进行比对,删除没有属性名或拥有错误属性名的属性值,将正确属性值存储到本地数据库,完成对页面属性的属性值抽取。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210097167.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top