[发明专利]一种基于网页特征的正文信息抽取方法在审

申请号：	201710346591.1	申请日：	2017-05-17
公开（公告）号：	CN107247742A	公开（公告）日：	2017-10-13
发明（设计）人：	李晓林;刘志杰;谢婷婷;严柯;张懿	申请（专利权）人：	武汉工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	宁波市鄞州甬致专利代理事务所(普通合伙)33228	代理人：	潘李亮
地址：	430000 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于网页特征正文信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信息抽取技术领域，尤其涉及一种基于网页特征的正文信息抽取方法。

背景技术

互联网技术的快速发展使得网页成为人们获得信息的主要来源之一。然而，随着新事物的不断涌现，网页数量也在以惊人的数量增长，不计其数的网页中蕴含着丰富的信息资源，为了让用户快速获取需要的信息，Jim Cowie和Yorick Wilks于1996年提出信息抽取这一概念。在这个发展过程中，已有很多学者根据不同的抽取需求提出了不同的信息抽取方法，如下所示：

基于包装器的方法主要利用网页模块化和结构化的特征提取网页正文，该方法根据页面的布局特点、规律等设计统一的模板，对得到的模板进行分析以获取页面中的正文。该方法需要人工编写抽取规则，对于结构相似的模板页面能精确的定位到正文信息，但通用性不强，只适用于特定的页面，无法处理种类繁多的Web页面。此外，人工书写规则容易出错，不便于维护。

基于网页标签的方法依赖HTML语言中的特定标签（如：<table> </table>、<p> </p>等），这类方法一般适用于正文处于特定标签的情况，对特征标签有很大的依赖，对页面的内容布局有很高要求，处理其他布局类型的页面将无法适用。

基于文档树的方法基本思路是将HTML网页解析成DOM树的结构，通过统计节点的链接长度、文本长度、链接与文本数量比例等信息确定正文节点，根据路径相似度抽取其他正文，最终整合成网页正文。这种方法预处理工作较复杂，效率较低。

基于视觉特征的页面分块算法VIPS（Vision based Page Segmentation）,该算法根据页面中的文字大小、背景颜色、逻辑块和逻辑块之间的间距等视觉表现特征来分割语义块，达到页面分块的效果，对页面块之间水平和垂直方向的分隔条赋予权值并通过配置网页信息抽取规则从中抽取信息。VIPS算法主要是将页面进行分块，对于网页信息提取需要信息抽取规则，使得这种方法通用性受限，增加了算法复杂度。

发明内容

本发明所要解决的技术问题是：提供一种具有较好的通用性和较高的准确率的基于网页特征的正文信息抽取方法。

本发明所采用的技术方案是：一种基于网页特征的正文信息抽取方法，它包括以下步骤：

（1）、对网页进行预处理；

（2）、将预处理后的网页的所有行标号并且统计每行的字符长度，形成一个初始文本；

（3）、设置行文长度阈值L；

（4）、然后遍历步骤（2）中得到的初始文本，以当前行的行文长度大于等于阈值L的行作为正文文本的起始行，以当前行的行文长度为0的行作为结尾行，所述起始行与结尾行之间的部位成为一个正文组；

（5）、然后继续遍历初始文本中的剩余部分，并且得到初始文本中的所有正文组；

（6）、设置行距阈值D；

（7）、检测所有正文组之间的行距，若检测到存在行距大于阈值D，则删去这个行距下方的所有正文组，然后将其他正文组判定为网页的正文部分；若没有检测到存在行距大于阈值D，则判断所有的正文组均为网页的正文部分。

采用以上方法与现有技术相比，本发明具有以下优点：通过行文长度来选择起始行与结束行，并且通过行距来判断是否属于正文，这样提取出来的正文部分准确度较高，而且通用性也较高。

作为优选，步骤（7）后还包括以下步骤，