[发明专利]一种基于主题的Web页面清洗方法有效

申请号：	201310378986.1	申请日：	2013-08-27
公开（公告）号：	CN103440315A	公开（公告）日：	2013-12-11
发明（设计）人：	沈琦;宋清明;张猛;汤艳	申请（专利权）人：	北京工业大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于主题 web 页面清洗方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于计算机科学与技术领域，涉及一种基于主题的Web页面清洗方法。

背景技术

当今互联网上的资源信息依然集中在各式各样的Web页面中，由于Web页面内容丰富，结构复杂，而有时我们关心的也许只是页面当中很小一部分内容块。如何针对不同的网页结构去除页面中大量无用的信息，而只获取到所需要的数据，为人们更好的提供检索服务，这就成为了Web资源处理过程中一个重要的工作，页面清洗就是为达到这一目标而出现。

目前通用的页面清洗方法主要分为三个步骤：第一步将页面当中的样式表、脚本以及注释等无关信息去除掉。第二步将页面分块，包括图像块、文本块和链接块等等。第三步按照指定规则对各块做进一步筛选，例如从链接块中分离出广告链接、导航链接等无用信息，从文本块中分离出公告、广告等非关键信息。经过上述几步处理之后，页面在结构和语义上就被划分为细粒度的信息块，使后续的信息加工处理工作能够顺利进行。

现在比较流行的页面清洗方法有以下两类：

一是基于样本学习策略的页面清洗方法。该方法基于对大量采集样本的学习，分析所需清洗页面的内容块，从而保留必要的采集信息。这种清洗方法对于相似页面清洗效率高，清洗的准确度和精度都很高，但是对于异构的页面效率明显降低，适用范围不广。同时，该方法前期的学习过程需要借助大量的样本页面，样本页面质量的好坏决定了清洗的效能，样本学习也是一个比较耗时的过程，因此该方法的依赖性强，前期投入和开销大。

二是基于页面DOM解析策略的页面清洗方法。该方法是目前适用范围最广的一种页面清洗方法，它的中心思想是依赖于对页面文档结构模型DOM的分析。经过对页面DOM的分析和学习得到一系列“噪声”信息，然后把这些无用的信息去除，从而保留必要的采集信息。这种方法不同于上述方法，由于是基于页面DOM的分析和判断，对不同的“噪声”信息可以根据情况设定不同的标准，因此它对异构页面的清洗效果较好，使用范围也比较广。但是由于是基于DOM的方法，对系统内存的开销较大，同时清洗的时间效率也不是很高。

可以看出，目前页面清洗方法的设计思路都比较相似，都是基于样本学习和页面DOM分析来实现，这些方式的算法过于复杂，对于特定结构的网页抽取效率高，对于异构网页处理效果不好，这种机制高度依赖网页结构的相似性，但是对于当今互联网页面的异构性和复杂性，这种机制的处理结果比较不理想，而且此算法本身实现复杂，不利于更新。

发明内容

针对现有技术中存在的算法复杂、效率低、成本高等问题，本发明提出了一种基于主题正则表达式匹配抽取策略的页面清洗方法。

为了实现上述目的，本发明采用以下技术方案：

首先，对待清洗页面的页面结构特征进行分析，具体包含确定待清洗页面的页面主题领域、确定页面的样本以及确定抽取内容标签边界。

其次，根据确定的内容标签边界定义匹配抽取规则的正则表达式。

然后，进行页面清洗前的预处理工作，包括对页面的标签和内容进行标准格式化，把页面标签和内容的形式尽量标准化，以降低算法的难度，提高匹配抽取过程的效率。

最后，利用匹配规则进行页面清洗，得到清洗后的页面内容。

与现有技术相比，本发明具有以下优点：

本发明将传统页面清洗工作的从在页面中“找”出“噪声”信息变成直接在页面中抽取有用信息，大大降低了页面清洗的复杂度和困难度。针对Web页面标签的复杂多样性和局部固定性，采用正则表达式直接匹配和抽取需要的标签，保留有用信息并自动剔除掉无用信息，可有效地实现页面清洗的目的。本发明避开了传统页面清洗技术的缺陷，简单实用，清洗效率和准确性都有所提高，同时节约了系统的开销。这种个性化、有针对性的设计思想不仅能降低目前页面清洗方法的难度，同时还能提高页面的清洗效率，更能适应目前Web信息采集技术基于主题、定向、个性化的发展趋势。

附图说明

图1为本发明所涉及的方法流程图；

图2为旅游网页酒店信息实例；

图3为网页结构图；

图4为页面dl标签片段；

图5为页面ul标签片段。

具体实施方式

下面根据附图和具体实施例对本发明做进一步说明。

本发明所述方法的流程图如图1所示，包括如下步骤：

步骤一，确定主题领域：人工采集和选取多个样本页面进行分析，提取出关键词，由关键词确定页面内容的主题范围，最终确定主题领域。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载