[发明专利]一种基于实体的自底向上Web数据抽取方法有效

申请号：	201110196449.6	申请日：	2011-07-13
公开（公告）号：	CN102262658A	公开（公告）日：	2011-11-30
发明（设计）人：	申德荣;刘桐;寇月;聂铁铮;于戈	申请（专利权）人：	东北大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	沈阳东大专利代理有限公司 21109	代理人：	李运萍
地址：	110819 辽宁***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供了一种基于实体的自底向上Web数据抽取方法，属于网络数据管理领域，具体步骤包括：选择Web数据页面、划分文本、标注实体属性、抽取属性序列重复模式抽取、化简结果模式；本发明的Web数据抽取方法，可以更广泛的抽取复杂Web页面的结构化数据，有效避免先前抽取技术对页面结构的过度依赖，适应性好，准确度高。
搜索关键词：	一种基于实体向上 web 数据抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于实体的自底向上Web数据抽取方法，其特征在于：具体步骤如下：步骤1.选择Web数据页面：对于DeepWeb响应页面，需要输入查询词来获得；Web页面可以看作是由HTML语言描述的文本字符串，使用DOM解析工具(HtmlAgilityPack)将其解析成为标签和文本；然后，在DOM树中删除所有script节点和comment节点，对HTML文档进行最基本的去噪并做规范化处理，得到符合XML标准的文档D；D可以表示为：(T，M，S)，其中T是DOM树中所有标签节点的集合，M是DOM树文本节点中的分隔符的集合，S是DOM树文本节点中除了T和M之外所有的文本字符串；步骤2.划分文本：对于给定的文档D，按照下面两个条件将S划分为有序的字符串序列：(1)对于每一个t∈T，m∈M，都以此为分隔在S上做一次划分；(2)对于相邻的子字符串且对应的文本节点在DOM树中深度相差一级的划分，予以合并操作；文本S经过以上划分后得到有序序列S_list＝<s₁，s₂，...，s_n>，其中且每一个s_i都对应文档D中的一段文本字符串，这里s_i被称为实体；步骤3.标注实体属性：即赋予S_list中的每个实体一个实体类型的名称；每类Web主题都包含特定的实体类型集，那么给定一个主题，也就确定下来该领域的实体类型集A；对于每个实体类型a∈A，采用一个二级抽取模型，第一级L₁定义查全规则r_a1∈R₁，第二级L₂定义查准规则r_a2∈R₂，其中R₁是该主题所有实体类型的查全属性集合，R₂是该主题所有实体类型的查准属性集合；这样做能够很好的将查全率与查准率的相互依赖性拆开，保证信息的最小丢失和最大收益；给定B代表能够匹配该实体的规则集，A代表匹配B中某条规则后得到的属性标签；具体标注过程如下：(1)将R₁中的每一条规则r_x1在S_list上进行匹配，规则r_x1会将所有匹配它的实体添加x属性，若某一实体s_x匹配r_x1，则将属性x添加到s_x的属性列表中，x∈A；经过规则集R₁匹配后的实体属性序列可以表示为：{<Urx11x1,Urx21x2,...,Urxn1xn>|x1,x2,...,xn∈A,rx11,rx21,...,rxn1∈R1}]]>(2)将R₂中的每一条规则r_x2在S_list上进行匹配，规则r_x2会将所有匹配它的实体唯一标识x属性，若某一实体s_x匹配r_x2，则s_x的属性唯一确定为x，删除s_x的其它属性，x∈A；假设s₁的属性被确定为x₁，s_n的属性被确定为x_n，那么经过规则集R₂匹配后的实体属性序列可以表示为：{<x1,Urx21x2,...,xn>|x1,x2,...,xn∈A,rx11,rx21,...,rxn1∈R1}]]>用A_list表示上面的序列，它是一个拥有部分确定属性的实体属性序列；步骤4.抽取属性序列重复模式：设集合I为所有实体在文本中的索引的集合即Ind＝{Index(s_i，D)|i∈Z⁺}，Z⁺是正整数集合；定义集合AI＝{(a，ind)|a∈A_list，ind∈I}，具体过程如下：(1)选择起始关键属性，即找到(a_k，ind_k)满足：(ak,indk)=arg(min(sum(indam)count(am))),m∈[1,SN]]]>其中，sum函数求出所有被标注包含有a_m属性的实体的索引值的和，count函数计算出被标注为包含a_m属性实体的个数，SN为该主题的实体类型数量；(2)在A_list中从a_k开始遍历，创建一个队列Q记录遍历过的属性序列，每当遇到包含a_k的属性a_x，则将Q中已有的属性序列作为一个重复模式P_r添加到候选模式集合P中，并将a_x加入队列作为下一个属性序列的开始；若某一序列只包含一个元素，则将其添加到上一序列，并移除该元素的a_k标签；若P中已经包含P_r，则将P_r的支持参数Support(P_r)增加1；反之则将P_r支持数初始化为0，重复执行以上步骤直到整个A_list遍历完毕；模式P_r可以表示为<a₁，a₂，...，a_rn>，x_i∈A，rn为P_r中包含的实体属性数量，则生成的候选模式集合P可以表示为{P₁，P₂，...，P_pn}，P中的每个元素都代表D中唯一的重复模式，pn是从D中抽取出的不同重复模式数量；(3)根据rn将P中的模式分组，保证同一组的模式都具有相同的rn，不同组的模式都具有不同的rn；将经过分组后的P表示为G＝{g_l1，g_l2，...，g_lgn}，l_i是每组模式rn的值，gn是组的数目；对任意组gli中的所有模式做两两交运算，给定两个具有相同rn的模式P₁＝<a₁，a₂，...，a_rn>，P₂＝<b₁，b₂，...，b_rn>，定义P₁与P₂的交运算如下：对于每对属性a_p1∈P₁，a_p2∈P₂，做集合交运算a_p1∩a_p2；所以P₁∩P₂＝<a₁∩b₁，a₂∩b₂，...，a_rn∩b_rn>；对于没有Φ元素的交运算结果P_∩，将这两个模式用p_∩代替；对于有Φ元素的P_∩，将这两个模式予以保留；因此，在算法结束时每组都可能包含一个或者多个结果模式，且大多数结果模式只包含单一属性；少数复杂的模式在交运算之后仍然包含多标签属性，对于这类结果模式，将遵循保证模式内包含最大实体类型数目的原则拆分多标签属性；假设某一结果模式P^c＝<x₁，x₂∪x₃，x₃，x₄>，根据分裂后的信息增益，将其输出为<x₁，x₂，x₃，x₄>；经过完整算法，G可以表示为：Ui=1gnUj=1cniPrnijc]]>其中cn_i是组g_i中包含的结果模式数目，是长度为rn_i的组中的一个结果模式；将G中的结果模式重新按照初始顺序构建为P；(4)选择P中全部Support相同且在D中相邻出现的模式，对于每对符合条件的P₁，P₂，若P₁或P₂具有包含a_k属性的多标签属性且P₁∪P₂∈P，则用P₁∪P₂代替P₁和P₂，并将Support(P₁∪P₂)增加Support(P₁)；对于那些Support数仍为1且包含较少的实体类型或者包含较多不确定属性标签的模式删除；最终，通过一个阈值σ控制输出P中符合条件的结果模式集合P_c，σ是大于0的正整数；步骤5.化简结果模式：对P_c中的每个模式建立有限自动机，按照模式的序列顺序设立初始状态和终止状态，每遇到一个特定的属性都会转移到指定的状态；当模式序列遍历结束时，自动机同时创建完毕，输出满足以下两个条件的序列为化简后的模式：(a)保证每个属性值被至少访问一次；(b)该序列是满足(a)条件的从初始状态到终止状态的最短路径；最后，删除化简后产生重复冗余的模式。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东北大学，未经东北大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110196449.6/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于实体的自底向上Web数据抽取方法有效

专利文献下载