[发明专利]基于树权值的网页数据记录识别和抽取方法有效

专利信息
申请号: 201110438187.X 申请日: 2011-12-23
公开(公告)号: CN102591931A 公开(公告)日: 2012-07-18
发明(设计)人: 尹建伟;彭勇;杨弈锦;邓水光;李莹;吴健;吴朝晖 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州裕阳专利事务所(普通合伙) 33221 代理人: 江助菊
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 树权值 网页 数据 记录 识别 抽取 方法
【权利要求书】:

1.基于树权值的网页数据记录识别和抽取方法,其特征在于,包括如下步骤:

(1)网页处理和转化;

(2)数据记录识别;

(3)数据记录对准和抽取;

(4)数据存储;

所述网页处理和转化包括如下步骤:

11)对抓取的网页依据标签的作用进行分类后构造标签树;

12)对所述标签树的每个树节点按照如下公式赋予权值:

W=λdepth+Σi=1nSubWi]]>

其中SubWi为子树节点权值,λ为权值调节参数,depth为树的深度,若某节点的权值为0,则认为该节点是无关节点,若树节点为无关标签节点,所述无关标签包括超链接标签,描述显示特点的标签,则该树对应的λ=0;若树节点为叶子节点且若该树节点为文本节点或图片节点则该树节点权值W=1,若为其他类型则该树节点权值W=0;

所述数据记录识别包括如下步骤:

13)将步骤12)经过赋予权值后的标签树作为输入树输入数据记录模块,所述数据记录模块首先访问模板树库,根据所述模板树库中的模板树的必选子树集权值进行比较查找,若所述输入树包含必选子树集权值,则该输入树能用该模板树进行数据记录识别,获取相应的数据记录区域,若在所述模板树库中找不出对应模板树,则进行自适应的识别数据记录,通过对自身连续区域的相似子树的判断识别出数据记录区域,获取相应的数据记录区域;

所述数据记录对准和抽取包括如下步骤:

14)在步骤13)获取的包含数据记录区域数组中取权值最大的标签树作为基准树Tb,对于数据记录区域数组中的剩下每棵标签树Ti,根据先权值后标签,权值按从大到小顺序的方式找出标签树Ti下所有能够对准所述基准树Tb的节点,若找出一个节点Ti[j]在基准树Tb下存在权值大于或者相等阀值K,并且节点标签一致的节点Tb[k],那么将认为节点Ti[j]是可以对准的;如果不存在能够对准的节点则执行插入操作将节点Ti[j]插入到所述基准树Tb中使得对所述基准树Tb进行调整,调整后的基准树Tb将用于数据记录区域数组中其他标签树的对准,最后产生最终的基准树Tb

所述数据存储包括如下步骤:

15)将标签树集合与模板树进行数据匹配获取信息,将结果以数据库的形式进行保存。

2.根据权利要求1所述的基于树权值的网页数据记录识别和抽取方法,其特征在于,所述步骤11)通过标签的作用将HTML的标签分为三类:第一为规划网页布局的标签其提供内容信息区域的标签;第二为描述显示特点的标签其包含内容显示方式的标签;第三为超链接相关的标签。

3.根据权利要求1所述的基于树权值的网页数据记录识别和抽取方法,其特征在于,在采用步骤12)对每个树节点赋予权值之前,对网页进行除噪,所述除噪步骤为对标签树进行修剪,包括将叶子节点标签设为无关标签、相邻文本或图片节点的父节点标签设为无关标签、无兄弟的文本或图片节点的父节点标签为无关标签。

4.根据权利要求1所述的基于树权值的网页数据记录识别和抽取方法,其特征在于,所述步骤13)对于数据记录识别需要对标签树进行比较来判断其相似程度,采用的比较方法为:如果标签树T1的子树集里与标签树T2的子树集里存在权值相等的交集,满足存在大于阀值K的子树且权值相等子树集必须存在顺序关系,即W[T1[i]]==W[T2[j]]且W[T1[k]]==W[T2[t]]时,当且仅当i<=k时j<=t,则设标签树T1和标签树T2相似。

5.根据权利要求1所述的基于树权值的网页数据记录识别和抽取方法,其特征在于,所述步骤14)所述插入操作的插入位置通过如下步骤确定:如果节点序列Ti[j]...Ti[m]在标签树Ti的共同父节点下有2个相邻兄弟节点,一个在最左边,一个在最右边,这两个兄弟节点都在基准树Tb下有对应的对准节点,那么节点序列Ti[j]...Ti[m]能够唯一的插入到基准树Tb下2个相邻兄弟节点之间;如果节点序列Ti[j]…Ti[m]在标签树Ti的共同父节点下只有1个左相邻兄弟节点k,并且节点k对应的对准着基准树Tb下的最右边的节点,那么节点序列Ti[j]…Ti[m]能够唯一的插入到基准树Tb下节点k的最右边位置;如果节点序列Ti[j]...Ti[m]在标签树Ti的共同父节点下只有1个右相邻兄弟节点k,并且节点k对应的对准着基准树Tb下的最左边的节点,那么节点序列Ti[j]...Ti[m]能够唯一的插入到基准树Tb下节点k的最左边的位置;如果不能唯一确定标签树Ti下一个非对准节点k在基准树Tb下的位置,那么将执行不插入,而是将标签树Ti放到临时数据记录数组里。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110438187.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top