[发明专利]一种基于实体的自底向上Web数据抽取方法有效

专利信息
申请号: 201110196449.6 申请日: 2011-07-13
公开(公告)号: CN102262658A 公开(公告)日: 2011-11-30
发明(设计)人: 申德荣;刘桐;寇月;聂铁铮;于戈 申请(专利权)人: 东北大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 沈阳东大专利代理有限公司 21109 代理人: 李运萍
地址: 110819 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明提供了一种基于实体的自底向上Web数据抽取方法,属于网络数据管理领域,具体步骤包括:选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式;本发明的Web数据抽取方法,可以更广泛的抽取复杂Web页面的结构化数据,有效避免先前抽取技术对页面结构的过度依赖,适应性好,准确度高。
搜索关键词: 一种 基于 实体 向上 web 数据 抽取 方法
【主权项】:
1.一种基于实体的自底向上Web数据抽取方法,其特征在于:具体步骤如下:步骤1.选择Web数据页面:对于DeepWeb响应页面,需要输入查询词来获得;Web页面可以看作是由HTML语言描述的文本字符串,使用DOM解析工具(HtmlAgilityPack)将其解析成为标签和文本;然后,在DOM树中删除所有script节点和comment节点,对HTML文档进行最基本的去噪并做规范化处理,得到符合XML标准的文档D;D可以表示为:(T,M,S),其中T是DOM树中所有标签节点的集合,M是DOM树文本节点中的分隔符的集合,S是DOM树文本节点中除了T和M之外所有的文本字符串;步骤2.划分文本:对于给定的文档D,按照下面两个条件将S划分为有序的字符串序列:(1)对于每一个t∈T,m∈M,都以此为分隔在S上做一次划分;(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分,予以合并操作;文本S经过以上划分后得到有序序列Slist=<s1,s2,...,sn>,其中每一个si都对应文档D中的一段文本字符串,这里si被称为实体;步骤3.标注实体属性:即赋予Slist中的每个实体一个实体类型的名称;每类Web主题都包含特定的实体类型集,那么给定一个主题,也就确定下来该领域的实体类型集A;对于每个实体类型a∈A,采用一个二级抽取模型,第一级L1定义查全规则ra1∈R1,第二级L2定义查准规则ra2∈R2,其中R1是该主题所有实体类型的查全属性集合,R2是该主题所有实体类型的查准属性集合;这样做能够很好的将查全率与查准率的相互依赖性拆开,保证信息的最小丢失和最大收益;给定B代表能够匹配该实体的规则集,A代表匹配B中某条规则后得到的属性标签;具体标注过程如下:(1)将R1中的每一条规则rx1在Slist上进行匹配,规则rx1会将所有匹配它的实体添加x属性,若某一实体sx匹配rx1,则将属性x添加到sx的属性列表中,x∈A;经过规则集R1匹配后的实体属性序列可以表示为:{<Urx11x1,Urx21x2,...,Urxn1xn>|x1,x2,...,xnA,rx11,rx21,...,rxn1R1}]]>(2)将R2中的每一条规则rx2在Slist上进行匹配,规则rx2会将所有匹配它的实体唯一标识x属性,若某一实体sx匹配rx2,则sx的属性唯一确定为x,删除sx的其它属性,x∈A;假设s1的属性被确定为x1,sn的属性被确定为xn,那么经过规则集R2匹配后的实体属性序列可以表示为:{<x1,Urx21x2,...,xn>|x1,x2,...,xnA,rx11,rx21,...,rxn1R1}]]>用Alist表示上面的序列,它是一个拥有部分确定属性的实体属性序列;步骤4.抽取属性序列重复模式:设集合I为所有实体在文本中的索引的集合即Ind={Index(si,D)|i∈Z+},Z+是正整数集合;定义集合AI={(a,ind)|a∈Alist,ind∈I},具体过程如下:(1)选择起始关键属性,即找到(ak,indk)满足:(ak,indk)=arg(min(sum(indam)count(am))),m[1,SN]]]>其中,sum函数求出所有被标注包含有am属性的实体的索引值的和,count函数计算出被标注为包含am属性实体的个数,SN为该主题的实体类型数量;(2)在Alist中从ak开始遍历,创建一个队列Q记录遍历过的属性序列,每当遇到包含ak的属性ax,则将Q中已有的属性序列作为一个重复模式Pr添加到候选模式集合P中,并将ax加入队列作为下一个属性序列的开始;若某一序列只包含一个元素,则将其添加到上一序列,并移除该元素的ak标签;若P中已经包含Pr,则将Pr的支持参数Support(Pr)增加1;反之则将Pr支持数初始化为0,重复执行以上步骤直到整个Alist遍历完毕;模式Pr可以表示为<a1,a2,...,arn>,xi∈A,rn为Pr中包含的实体属性数量,则生成的候选模式集合P可以表示为{P1,P2,...,Ppn},P中的每个元素都代表D中唯一的重复模式,pn是从D中抽取出的不同重复模式数量;(3)根据rn将P中的模式分组,保证同一组的模式都具有相同的rn,不同组的模式都具有不同的rn;将经过分组后的P表示为G={gl1,gl2,...,glgn},li是每组模式rn的值,gn是组的数目;对任意组gli中的所有模式做两两交运算,给定两个具有相同rn的模式P1=<a1,a2,...,arn>,P2=<b1,b2,...,brn>,定义P1与P2的交运算如下:对于每对属性ap1∈P1,ap2∈P2,做集合交运算ap1∩ap2;所以P1∩P2=<a1∩b1,a2∩b2,...,arn∩brn>;对于没有Φ元素的交运算结果P,将这两个模式用p代替;对于有Φ元素的P,将这两个模式予以保留;因此,在算法结束时每组都可能包含一个或者多个结果模式,且大多数结果模式只包含单一属性;少数复杂的模式在交运算之后仍然包含多标签属性,对于这类结果模式,将遵循保证模式内包含最大实体类型数目的原则拆分多标签属性;假设某一结果模式Pc=<x1,x2∪x3,x3,x4>,根据分裂后的信息增益,将其输出为<x1,x2,x3,x4>;经过完整算法,G可以表示为:Ui=1gnUj=1cniPrnijc]]>其中cni是组gi中包含的结果模式数目,是长度为rni的组中的一个结果模式;将G中的结果模式重新按照初始顺序构建为P;(4)选择P中全部Support相同且在D中相邻出现的模式,对于每对符合条件的P1,P2,若P1或P2具有包含ak属性的多标签属性且P1∪P2∈P,则用P1∪P2代替P1和P2,并将Support(P1∪P2)增加Support(P1);对于那些Support数仍为1且包含较少的实体类型或者包含较多不确定属性标签的模式删除;最终,通过一个阈值σ控制输出P中符合条件的结果模式集合Pc,σ是大于0的正整数;步骤5.化简结果模式:对Pc中的每个模式建立有限自动机,按照模式的序列顺序设立初始状态和终止状态,每遇到一个特定的属性都会转移到指定的状态;当模式序列遍历结束时,自动机同时创建完毕,输出满足以下两个条件的序列为化简后的模式:(a)保证每个属性值被至少访问一次;(b)该序列是满足(a)条件的从初始状态到终止状态的最短路径;最后,删除化简后产生重复冗余的模式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110196449.6/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top