[发明专利]一种基于不完全子树匹配的Web数据记录提取方法有效
申请号: | 201210277173.9 | 申请日: | 2012-08-06 |
公开(公告)号: | CN102937958A | 公开(公告)日: | 2013-02-20 |
发明(设计)人: | 胡海斌;王慧昌 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 安筱琼 |
地址: | 361008 福建省厦门市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于不完全子树匹配的Web数据记录提取方法,包括如下步骤:根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;过滤噪声标记信息;利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;候选子树集抽取;不完全子树匹配;数据记录集确定。本发明具基于子树的匹配,不依赖于网页的模板结构所以方法具有很高的通用性;通过标签过滤和候选子树集的确定,可以有效提高数据抽取过程的性能;基于截取的不完全子树匹配方法判断子树结构之间的相似性,可以有效地消除数据对模板进行填充后导致的结构性差异,提高数据记录提取的精度的优点。 | ||
搜索关键词: | 一种 基于 不完全 子树 匹配 web 数据 记录 提取 方法 | ||
【主权项】:
一种基于不完全子树匹配的Web数据记录提取方法,其特征在于:包括如下步骤: a.根据HTTP协议下载网页的HTML源代码,并将下载的字符以统一的UNICODE进行编码;b.过滤噪声标记信息;c.利用NEKO或者HTMLParser之类的组件对HTML源代码进行解析,构造网页的Document树;d.候选子树集抽取;e.不完全子树匹配;f.数据记录集确定。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210277173.9/,转载请声明来源钻瓜专利网。