[发明专利]基于树权值的网页数据记录识别和抽取方法有效

申请号：	201110438187.X	申请日：	2011-12-23
公开（公告）号：	CN102591931A	公开（公告）日：	2012-07-18
发明（设计）人：	尹建伟;彭勇;杨弈锦;邓水光;李莹;吴健;吴朝晖	申请（专利权）人：	浙江大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州裕阳专利事务所(普通合伙) 33221	代理人：	江助菊
地址：	310027 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于树权值的网页数据记录识别和抽取方法，包括如下步骤：网页处理和转化；数据记录识别；数据记录对准和抽取；数据存储；根据HTML网页的内容的树结构特点，通过对抓取到的网页进行处理转化为标签树结构，自底而上的为每个树节点赋上权值，使得不同层次的节点具有不同的权值，然后根据相似子树集和位置连续性来识别出数据记录区域，然后根据包含数据记录的标签树集进行树对准操作生成基准树作为抽取模板，可以得到高效率和高准确度的结果。
搜索关键词：	基于树权值网页数据记录识别抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于树权值的网页数据记录识别和抽取方法，其特征在于，包括如下步骤：(1)网页处理和转化；(2)数据记录识别；(3)数据记录对准和抽取；(4)数据存储；所述网页处理和转化包括如下步骤：11)对抓取的网页依据标签的作用进行分类后构造标签树；12)对所述标签树的每个树节点按照如下公式赋予权值： W = λ depth + Σ i = 1 n Sub W i 其中SubWi为子树节点权值，λ为权值调节参数，depth为树的深度，若某节点的权值为0，则认为该节点是无关节点，若树节点为无关标签节点，所述无关标签包括超链接标签，描述显示特点的标签，则该树对应的λ＝0；若树节点为叶子节点且若该树节点为文本节点或图片节点则该树节点权值W＝1，若为其他类型则该树节点权值W＝0；所述数据记录识别包括如下步骤：13)将步骤12)经过赋予权值后的标签树作为输入树输入数据记录模块，所述数据记录模块首先访问模板树库，根据所述模板树库中的模板树的必选子树集权值进行比较查找，若所述输入树包含必选子树集权值，则该输入树能用该模板树进行数据记录识别，获取相应的数据记录区域，若在所述模板树库中找不出对应模板树，则进行自适应的识别数据记录，通过对自身连续区域的相似子树的判断识别出数据记录区域，获取相应的数据记录区域；所述数据记录对准和抽取包括如下步骤：14)在步骤13)获取的包含数据记录区域数组中取权值最大的标签树作为基准树Tb，对于数据记录区域数组中的剩下每棵标签树Ti，根据先权值后标签，权值按从大到小顺序的方式找出标签树Ti下所有能够对准所述基准树Tb的节点，若找出一个节点Ti[j]在基准树Tb下存在权值大于或者相等阀值K，并且节点标签一致的节点Tb[k]，那么将认为节点Ti[j]是可以对准的；如果不存在能够对准的节点则执行插入操作将节点Ti[j]插入到所述基准树Tb中使得对所述基准树Tb进行调整，调整后的基准树Tb将用于数据记录区域数组中其他标签树的对准，最后产生最终的基准树Tb；所述数据存储包括如下步骤：15)将标签树集合与模板树进行数据匹配获取信息，将结果以数据库的形式进行保存。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110438187.X/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于树权值的网页数据记录识别和抽取方法有效

专利文献下载