[发明专利]一种DeepWeb响应页面数据抽取方法无效
申请号: | 200910010201.9 | 申请日: | 2009-01-21 |
公开(公告)号: | CN101582074A | 公开(公告)日: | 2009-11-18 |
发明(设计)人: | 申德荣;于戈;孙高尚;聂铁铮;寇月;王振华 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 沈阳东大专利代理有限公司 | 代理人: | 李运萍 |
地址: | 110004辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种DeepWeb响应页面数据抽取方法,属于深层网络数据管理领域,该方法包括以下步骤:(1)选取DeepWeb响应页面Page;在查询页面输入关键字Key,查询得到响应页面Page;(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,分隔并过滤公共token字符序列得到模板信息;(3)数据抽取;(4)token块合并;(5)数据表格聚类;本发明的有益效果:采用本发明的数据抽取方法,适用性强,精度高,效率得到大大提高。 | ||
搜索关键词: | 一种 deepweb 响应 页面 数据 抽取 方法 | ||
【主权项】:
1、一种DeepWeb响应页面数据抽取方法,其特征是该方法包括以下步骤:步骤(1)选取DeepWeb响应页面Page在查询页面输入关键字Key,查询得到响应页面Page,响应页面Page是HTML语法描述的字符串数组,用DOM解析工具将HTML字符串转化为DOM树结构,DOM树中的结点定义:(N,Kn,Wn,Tn),其中N表示结点N,Kn表示结点N包含关键字的个数,Wn表示结点N中包含关键字的孩子结点的个数,Tn表示结点N的文本内容,则DOM树结构描述为:DOM = { ( C N i , K C N i , W C N i , T C N i ) | ∀ N ∈ DOM , ( root , K root , W root , T root ) ∈ DOM } ]]> 其中,N为DOM树中的结点,CNi为结点N的第i个孩子结点;步骤(2)抽取页面模板信息;对于响应页面的DOM树结构,找到包含关键字的孩子结点个数Wn最多的双亲结点P,保存该结点的绝对路径{i1,i2,...,in},绝对路径的起始结点为根结点root,则P结点可以表示为P = C C C C root i 1 i 2 · · · i n ]]> P结点所有的孩子结点子树即为记录结点子树集;将记录结点子树集所有记录结点子树先根遍历转化为带标记的token块序列,统计记录token块序列中非空结点最小深度,记为lownum,再将带标记的token块序列转化为带标记的token字符序列;用LCS算法处理以上两个记录的带标记的token字符序列,得到一个公共token字符序列;分隔并过滤公共token字符序列得到模板信息;步骤(3)数据抽取;根据绝对路径取得记录结点的双亲结点P,P下的每个记录结点子树的根结点即为记录的根结点,先根遍历每个记录的根结点,读取文本结点的内容Tn,得到一个记录的文本内容,即得到记录级数据;基于模板信息对token块进行切割,得到新的token块序列,设A为待切割的token块,B为模板信息,U为模板信息中token块集合,若A切割必需满足:①∃ B ( B ⊆ U ) ]]> 且②A的内容必需完全包含B的内容,并且A的token块深度等于B的token块深度;步骤(4)token块合并;依据统计值lownum继续对token块进行合并,合并规则为:(1)如果token块深度高于lownum,则将当前token块合并到下一token块中;(2)如果token块深度等于lownum时,并且下一token块深度大于lownum,则输出本token块内容;如果下一token块深度等于lownum,则当前token块合并到下一token块中;(5)数据表格聚类,得到数据块级别数据;将标有相同模板信息的token块放入数据表格的同一列,其它无标记的token块同块序列号最近的带标记的token块放在一起。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200910010201.9/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置