[发明专利]一种DeepWeb响应页面数据抽取方法无效

申请号：	200910010201.9	申请日：	2009-01-21
公开（公告）号：	CN101582074A	公开（公告）日：	2009-11-18
发明（设计）人：	申德荣;于戈;孙高尚;聂铁铮;寇月;王振华	申请（专利权）人：	东北大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	沈阳东大专利代理有限公司	代理人：	李运萍
地址：	110004辽宁省***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种 deepweb 响应页面数据抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于深层网络数据管理领域，特别涉及一种DeepWeb响应页面数据抽取方法。

背景技术

随着Web的发展，Web上的信息呈爆炸式增长。Web按其所含信息的深度可分为SurfaceWeb和Deep Web(深层网络)两大部分。Surface Web是指可以通过超链接被传统的搜索引擎索引到的页面的集合；而Deep Web是指Web中不能被传统的搜索引擎索引到的那部分内容，只能通过在查询接口动态提交查询来访问Web中的内容。随着Deep Web数据源数量的增加，其重要性日趋突现。因为这些数据源中蕴含了大量的高质量的结构化信息。然而，这些数据源只能通过其查询接口访问，最终返回一系列包含大量半结构化信息的Web页面，因此如何自动而准确地抽取这些高质量的结构化数据给人们提出了挑战。近年来，较为典型的方法有RoadRunner、MDR、MDR II、ViNTs、ViPER等。

RoadRunner是一个包装器归纳系统，其方法是进一步发掘Html文档内在的特征，通过对比样本页面间的异同来生成抽取规则，并通过比较样本页面的标签结构来识别结构之间的不匹配。RoadRunner可以分析出模式中的可选属性和嵌套属性(可以在一条记录中重复出现多次属性)，但其推导时间复杂性为指数级，抽取代价高。

MDR和MDRII都是基于DOM Tree结构特征，完成对多记录页面的抽取。它们实现的关键在于利用页面的嵌套结构和表现特征把查询结果从整个页面中分离出来，并精确地划分结果中的多个记录。MDR把标签树中节点的路径看作一个字符串，并使用字符串编辑距离从数据区中发现数据记录结点；MDRII是以树的结构信息代替标签字符串，可更准确地识别数据记录。该类方法适合于DOM结构简单的页面，对DOM Tree结构复杂、数据区内噪声节点过多的结果页面不适合，并且不支持嵌套结构的数据。

ViNTs和ViPER都是基于可视化特征的抽取方法。该类方法需要建立一个有效的可视化模型，模拟人眼对页面的识别过程。其识别效率低于直接分析页面文档的识别方法。当页面没有明显的视觉特征时，抽取精度会变得很低。

发明内容

针对已有DeepWeb响应页面数据抽取方法的不足，本发明提供了一种DeepWeb响应页面数据抽取方法。本发明采用的技术方案是，包括以下步骤：步骤(1)选取DeepWeb响应页面Page；在查询页面输入关键字Key，查询得到响应页面Page，响应页面Page是HTML语法描述的字符串数组，用DOM解析工具(采用HTML Parser)将HTML字符串转化为DOM树结构，DOM树中的结点定义：(N，K_n，W_n，T_n)，其中N表示结点N，K_n表示结点N包含关键字的个数，W_n表示结点N中包含关键字的孩子结点的个数，T_n表示结点N的文本内容，则DOM树结构描述为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200910010201.9/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种DeepWeb响应页面数据抽取方法无效

专利文献下载