[发明专利]一种基于网页特征的正文信息抽取方法在审
申请号: | 201710346591.1 | 申请日: | 2017-05-17 |
公开(公告)号: | CN107247742A | 公开(公告)日: | 2017-10-13 |
发明(设计)人: | 李晓林;刘志杰;谢婷婷;严柯;张懿 | 申请(专利权)人: | 武汉工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 宁波市鄞州甬致专利代理事务所(普通合伙)33228 | 代理人: | 潘李亮 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网页 特征 正文 信息 抽取 方法 | ||
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种基于网页特征的正文信息抽取方法。
背景技术
互联网技术的快速发展使得网页成为人们获得信息的主要来源之一。然而,随着新事物的不断涌现,网页数量也在以惊人的数量增长,不计其数的网页中蕴含着丰富的信息资源,为了让用户快速获取需要的信息,Jim Cowie和Yorick Wilks于1996年提出信息抽取这一概念。在这个发展过程中,已有很多学者根据不同的抽取需求提出了不同的信息抽取方法,如下所示:
基于包装器的方法主要利用网页模块化和结构化的特征提取网页正文,该方法根据页面的布局特点、规律等设计统一的模板,对得到的模板进行分析以获取页面中的正文。该方法需要人工编写抽取规则,对于结构相似的模板页面能精确的定位到正文信息,但通用性不强,只适用于特定的页面,无法处理种类繁多的Web页面。此外,人工书写规则容易出错,不便于维护。
基于网页标签的方法依赖HTML语言中的特定标签(如:<table> </table>、<p> </p>等),这类方法一般适用于正文处于特定标签的情况,对特征标签有很大的依赖,对页面的内容布局有很高要求,处理其他布局类型的页面将无法适用。
基于文档树的方法基本思路是将HTML网页解析成DOM树的结构,通过统计节点的链接长度、文本长度、链接与文本数量比例等信息确定正文节点,根据路径相似度抽取其他正文,最终整合成网页正文。这种方法预处理工作较复杂,效率较低。
基于视觉特征的页面分块算法VIPS(Vision based Page Segmentation),该算法根据页面中的文字大小、背景颜色、逻辑块和逻辑块之间的间距等视觉表现特征来分割语义块,达到页面分块的效果,对页面块之间水平和垂直方向的分隔条赋予权值并通过配置网页信息抽取规则从中抽取信息。VIPS算法主要是将页面进行分块,对于网页信息提取需要信息抽取规则,使得这种方法通用性受限,增加了算法复杂度。
发明内容
本发明所要解决的技术问题是:提供一种具有较好的通用性和较高的准确率的基于网页特征的正文信息抽取方法。
本发明所采用的技术方案是:一种基于网页特征的正文信息抽取方法,它包括以下步骤:
(1)、对网页进行预处理;
(2)、将预处理后的网页的所有行标号并且统计每行的字符长度,形成一个初始文本;
(3)、设置行文长度阈值L;
(4)、然后遍历步骤(2)中得到的初始文本,以当前行的行文长度大于等于阈值L的行作为正文文本的起始行,以当前行的行文长度为0的行作为结尾行,所述起始行与结尾行之间的部位成为一个正文组;
(5)、然后继续遍历初始文本中的剩余部分,并且得到初始文本中的所有正文组;
(6)、设置行距阈值D;
(7)、检测所有正文组之间的行距,若检测到存在行距大于阈值D,则删去这个行距下方的所有正文组,然后将其他正文组判定为网页的正文部分;若没有检测到存在行距大于阈值D,则判断所有的正文组均为网页的正文部分。
采用以上方法与现有技术相比,本发明具有以下优点:通过行文长度来选择起始行与结束行,并且通过行距来判断是否属于正文,这样提取出来的正文部分准确度较高,而且通用性也较高。
作为优选,步骤(7)后还包括以下步骤,
(8)、从下到上检测步骤(7)中得到的正文部分,直到检测到有句号,然后将句号之前的部分判断为真正的正文部分。通过检测句号可以删去一些直接连接在正文后面的评论、其他引用等不属于正文的内容,进而使得提取出来的正文部分准确度更高。
作为优选,所述步骤(1)中的预处理包括以下步骤:
a、获取网页标题;
b、将网页中的HTML标签过滤;
c、删除HTML符号实体。
这样在进行行文长度筛选时先删去很多会影响筛选准确性的误导因素,进而使得提取出来的正文部分准确性更高。
具体实施方式
以下通过具体实施方式对本发明做进一步描述,但是本发明不仅限于以下具体实施方式。
一种基于网页特征的正文信息抽取方法,它包括以下步骤:
(1)、对网页进行预处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉工程大学,未经武汉工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710346591.1/2.html,转载请声明来源钻瓜专利网。