[发明专利]一种DeepWeb响应页面数据抽取方法无效
申请号: | 200910010201.9 | 申请日: | 2009-01-21 |
公开(公告)号: | CN101582074A | 公开(公告)日: | 2009-11-18 |
发明(设计)人: | 申德荣;于戈;孙高尚;聂铁铮;寇月;王振华 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳东大专利代理有限公司 | 代理人: | 李运萍 |
地址: | 110004辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 deepweb 响应 页面 数据 抽取 方法 | ||
技术领域
本发明属于深层网络数据管理领域,特别涉及一种DeepWeb响应页面数据抽取方法。
背景技术
随着Web的发展,Web上的信息呈爆炸式增长。Web按其所含信息的深度可分为SurfaceWeb和Deep Web(深层网络)两大部分。Surface Web是指可以通过超链接被传统的搜索引擎索引到的页面的集合;而Deep Web是指Web中不能被传统的搜索引擎索引到的那部分内容,只能通过在查询接口动态提交查询来访问Web中的内容。随着Deep Web数据源数量的增加,其重要性日趋突现。因为这些数据源中蕴含了大量的高质量的结构化信息。然而,这些数据源只能通过其查询接口访问,最终返回一系列包含大量半结构化信息的Web页面,因此如何自动而准确地抽取这些高质量的结构化数据给人们提出了挑战。近年来,较为典型的方法有RoadRunner、MDR、MDR II、ViNTs、ViPER等。
RoadRunner是一个包装器归纳系统,其方法是进一步发掘Html文档内在的特征,通过对比样本页面间的异同来生成抽取规则,并通过比较样本页面的标签结构来识别结构之间的不匹配。RoadRunner可以分析出模式中的可选属性和嵌套属性(可以在一条记录中重复出现多次属性),但其推导时间复杂性为指数级,抽取代价高。
MDR和MDRII都是基于DOM Tree结构特征,完成对多记录页面的抽取。它们实现的关键在于利用页面的嵌套结构和表现特征把查询结果从整个页面中分离出来,并精确地划分结果中的多个记录。MDR把标签树中节点的路径看作一个字符串,并使用字符串编辑距离从数据区中发现数据记录结点;MDRII是以树的结构信息代替标签字符串,可更准确地识别数据记录。该类方法适合于DOM结构简单的页面,对DOM Tree结构复杂、数据区内噪声节点过多的结果页面不适合,并且不支持嵌套结构的数据。
ViNTs和ViPER都是基于可视化特征的抽取方法。该类方法需要建立一个有效的可视化模型,模拟人眼对页面的识别过程。其识别效率低于直接分析页面文档的识别方法。当页面没有明显的视觉特征时,抽取精度会变得很低。
发明内容
针对已有DeepWeb响应页面数据抽取方法的不足,本发明提供了一种DeepWeb响应页面数据抽取方法。本发明采用的技术方案是,包括以下步骤:步骤(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page,响应页面Page是HTML语法描述的字符串数组,用DOM解析工具(采用HTML Parser)将HTML字符串转化为DOM树结构,DOM树中的结点定义:(N,Kn,Wn,Tn),其中N表示结点N,Kn表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910010201.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置