[发明专利]基于动态学习框架的全自动网页结构化数据抽取方法无效
申请号: | 201210352614.7 | 申请日: | 2012-09-20 |
公开(公告)号: | CN102831251A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 宋丹丹;吴云鹏;廖乐健;李龙;孙飞 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于动态学习框架的全自动网页结构化数据抽取方法,包括:(A)可信属性集学习过程和(B)属性单元的发现和抽取过程。所述(A)可信属性集学习过程包括:①提取潜在属性单元;②获得候选属性集合;③产生可信属性集合。所述(B)属性单元的发现和抽取过程包括:④获取属性单元发现域;⑤获取网页结构化数据。本发明提出的方法与已有方法相比较,具有以下优点:①无需人工干预,可以大规模地用于现实网络中各种类别的网页属性信息的抽取。②能够适应多种不同的垂直域。③基于动态学习的框架,能够适应目标网页的变化,具有较高的灵活性。④抽取出的信息还可以为其它方面的研究提供数据,如知识库建立、本体研究、趋势预测等。 | ||
搜索关键词: | 基于 动态 学习 框架 全自动 网页 结构 数据 抽取 方法 | ||
【主权项】:
1.一种基于动态学习框架的全自动网页结构化数据抽取方法,其特征在于:包括:(A)可信属性集学习过程和(B)属性单元的发现和抽取过程;所述(A)可信属性集学习过程包括步骤一至步骤三,具体为:步骤一、提取潜在属性单元;网页中包含的结构化数据用于描述当前网页所呈现事物的属性和属性值,将一个属性及其对应的属性值称为一个属性单元;提取潜在属性单元的具体过程为:第1.1步:解析待处理的HTML网页,生成DOM树;第1.2步:构造DOM树结构模型,其类型有三种:第①种:一个节点的子节点数大于或等于2,并且该节点有且仅有2个子节点包含文本节点;该模型用来找出DOM树中对应于一个属性单元的节点,并且该属性单元中只有一个属性和属性值;第②种:一个节点中包含2个或2个以上子节点,但有且仅有2个子节点包含文本节点;2个包含文本节点的子节点中,有且仅有1个子节点只包含一个文本节点,而另一个子节点是包含2个或2个以上文本节点;该模型用来找出DOM树中对应于一个属性单元的节点,并且该属性单元中包含2个或2个以上属性值;第③种:一个节点包含2个或2个以上子节点,但有且仅有偶数个子节点中包含且仅包含一个文本节点,且该偶数个子节点连续排列;此外,该偶数个子节点中,按照其前后顺序将每两个子节点分为一组,每组子节点对应于一个属性单元,每组中的第一个子节点对应属性,第二个子节点对应属性值;因此,该模型用来找出DOM树中对应于1个或1个以上属性单元的节点,并且每个属性单元中只可以包含一个属性值;第1.3步:根据第1.2步构造的3种DOM树结构模型,从第1.1步得到的DOM树中抽取出符合3种DOM树结构模型之一的节点;第1.4步:根据第1.3步得到的节点的DOM树结构模型类型,找出该节点对应的属性单元,放入到潜在属性单元集合中;经过上述步骤的操作,即可得到潜在属性单元集合,潜在属性单元集合的元素为潜在属性单元;步骤二、获得候选属性集合;从步骤一得到的潜在属性单元集合中,挑选出候选属性,并将其加入候选属性集合;候选属性是指出现频率大于某一阈值的潜在属性;所述某一潜在属性的出现频率可通过公式(1)计算得到;P ( c ) = N ( c ) | S c | - - - ( 1 ) ]]> 其中,P(c)表示某一潜在属性c的出现频率;Sc表示提取出该潜在属性的待处理HTML网页所在的网站;N(c)表示某一潜在属性c在网站Sc中出现的次数;某一潜在属性c在一个网页中出现一次以上,都只记为出现一次;|Sc|表示网站Sc中当前已处理的网页个数;步骤三、产生可信属性集合;在步骤二的基础上,产生可信属性集合;具体为:第3.1步:使用公式(2)依次计算步骤二得到的候选属性集合中候选属性的属性熵;entropy ( a ) = - Σ i = 1 | S | DisP i ( a ) log DisP i ( a ) - - - ( 2 ) ]]> 其中,entropy(a)表示某一候选属性a的属性熵;|S|表示已处理网站的个数;DisPi(a)表示候选属性a在|S|个网站中的某一网站中出现的次数Ni(a)与候选属性a在所有|S|个网站里出现次数
的比,如公式(3)所示;DisP i ( a ) = N i ( a ) Σ j = 1 | S | N j ( a ) - - - ( 3 ) ]]> 第3.2步:使用公式(4)依次计算步骤二得到的候选属性集合中候选属性的可信度;credibility ( a ) = ( 1 + entropy ( a ) ) Σ i = 1 | S | P i ( a ) - - - ( 4 ) ]]> 其中,credibility(a)为某一候选属性a的可信度;Pi(a)表示某一候选属性a的出现频率,可通过公式(5)计算得到;P i ( a ) = N i ( a ) | S i | - - - ( 5 ) ]]> 其中,Si表示第i个网站;Ni(a)表示某一候选属性a在网站Si中出现的次数;|Si|表示网站Si中当前已处理的网页个数;第3.3步:人为设定一个阈值x表示,x的值小于候选属性集合中元素的个数;第3.4步:对候选属性集合中的元素按照其候选属性可信度从大到小重新排序,然后挑选出前x个候选属性,并计算该x个候选属性的可信度平均值θv;第3.5步:遍历整个候选属性集中的候选属性,如果候选属性的可信度大于θv,则将该候选属性加入可信属性集合中;经过上述步骤的操作,即可得到可信属性集合;所述(B)属性单元的发现和抽取过程包括步骤四至步骤五,具体为:步骤四、获取属性单元发现域;针对可信属性集学习过程中处理的所有网页依次进行以下处理:根据可信属性集学习过程得到的可信属性集合中的可信属性在该网页对应DOM树上的位置,找出它们对应的公共祖先节点,然后将该公共祖先节点的子树下的叶子节点确定为一个属性单元发现域;步骤五、获取网页结构化数据;其具体过程为包括第5.1步至第5.2步:第5.1步:利用属性抽取算法对步骤四得到的属性单元发现域中的每一个节点进行处理,抽取出属性单元;具体为:第①步:根据公式(6)计算属性单元发现域中的每一个节点的熵;Entropy ( n ) = - Σ i = 1 | S | DISP i ( n ) log D ISP i ( n ) - - - ( 6 ) ]]> 其中,Entropy(n)表示属性单元发现域中的某一个节点n的熵;|S|表示已处理网站的个数;DISPi(n)表示节点n的内容在S个网站中的某一网站中出现的次数N′i(n)与节点n的内容在所有S个网站里出现次数
的比,如公式(7)所示;DISP i ( n ) = N i ′ ( n ) Σ j = 1 | S | N j ′ ( n ) - - - ( 7 ) ]]> 第②步:根据公式(8)计算属性单元发现域中的每一个节点的可信度;Credibility ( n ) = Entropy ( n ) + Σ i = 1 | S | P i ′ ( n ) - - - ( 8 ) ]]> 其中,Credibility(n)为属性单元发现域中的某一个节点n的可信度;P′i(n)表示某一个节点n的内容的出现频率,可通过公式(9)计算得到;P i ′ ( n ) = N i ′ ( n ) | S i | - - - ( 9 ) ]]> 其中,Si表示第i个网站;Ni′(n)表示某一个节点n的内容在网站Si中出现的次数;|Si|表示网站Si中当前已处理的网页个数;第③步:人为给定一个阈值θ,θ∈[0.7×θv,1.3×θv ]);第④步:对步骤四得到的属性单元发现域,按照先序遍历顺序对所有节点重新排序,并对重新排序后的节点依次进行第⑤步至第⑦步的处理;第⑤步:如果该节点n0的可信度比该节点的下一节点n′的可信度高并且该节点的可信度也高于阈值θ,则将该节点的内容确定为一个属性单元的属性,用符号A表示,将该节点的下一节点的内容确定为该属性单元的第一个属性值;第⑥步:人为给定一个阈值δ,δ∈[0.001,0.01];第⑦步:确定节点n′的下一节点n″是否为属性A的属性值;具体方法为:计算步骤一中所述潜在属性单元集合中属性A的所有属性值的个数K,计算步骤一中所述潜在属性单元集合中属性A的属性值为节点n″的内容的个数与K的比值R,如果R>δ,则将节点n″的内容作为属性A的下一个属性值,令n′指代节点n″,然后重复第⑦步;否则,令n0指代节点n″,然后重复第⑤步;第5.2步:将第5.1步抽取出的所有属性单元作为该网页的结构化数据。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210352614.7/,转载请声明来源钻瓜专利网。