[发明专利]一种基于WVP_DOM树相似性的网页不变形噪音过滤方法有效

申请号：	201510147986.X	申请日：	2015-03-31
公开（公告）号：	CN104965849B	公开（公告）日：	2018-12-07
发明（设计）人：	玄世昌;杨武;王巍;苘大鹏;岳国栋;朱宇	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 wvp_dom 相似性网页变形噪音过滤方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于网页主题提取领域，主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。本发明包括：对网页进行预处理；利用现有方法在WVP_DOM树中识别噪音信息并标记；遍历WVP_DOM树，具有相同的标签名称的相似结点为兄弟结点；如果结点是噪音结点且无兄弟结点，回溯到父结点，继续查找父结点的相似结点；如果结点是噪音结点且兄弟结点具有相似结构，则将结点删除，不会造成网页变形。本发明提出基于WVP_DOM树相似性的网页不变形噪音过滤方法，针对传统网页去噪方法易导致网页变形的缺点做出改进，通过查找噪音信息相似结构的方式，来解决网页去噪后网页变形这一问题。

技术领域

本发明属于网页主题提取领域，主要是一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。

背景技术

近年来，互联网技术始终保持着快速发展的趋势，使用互联网的人群也呈现爆炸性的增长，目前互联网上已经形成了庞大的数据源并且这些数据源多以网页的形式存在。为快速准确从海量信息源中获取有用的信息，数据挖掘与web信息检索技术扮演越发重要的角色。可是网页往往不仅包含网页主题，还包含很多网页广告链接及相关推荐这类不相关的内容，即噪音信息。这些信息不仅影响用户的阅读体验，而且可能造成网页的主题偏移，使自动化应用在对网页进行分析时造成分析数据有所偏差从而降低了自动化应用处理速率及准确率。因此，研究和实现高效、实用的web网页中广告等噪音信息过滤技术具有相当重要的意义。

目前已经存在对网页中的噪音信息进行过滤的方法，如2010年常红要在《基于标签分析的网页正文提取技术研究》中提出的方法，该方法提出了一种基于区域分块的HTML元素删除法和内嵌式元素提取法，可提取网页正文。这种方法处理后的信息依然保持网页的格式，使网页在浏览器中显示的时候网页中的噪音信息无法显示出来，达到了网页噪音信息净化的目的。但是该方法往往存在一个问题，就是当网页噪音信息过滤时，可能改变了网页布局结构，从而导致网页变形，进而影响用户的阅读体验。图1为该论文的实验效果，上半部分为原网页，下部分为实验后效果，可以看出网页中右侧的噪音信息虽然得到过滤，但是网页中的页码发生了偏移，造成了网页变形。

发明内容

本发明的目的在于提供一种有效的改善网页噪音过滤后网页变形的一种基于WVP_DOM树相似性的网页不变形噪音过滤方法。

本发明的目的是这样实现的：

(1)对网页进行预处理：将HTML网页文档转换成XHTML文档，排除文档中的格式及不规范错误；过滤掉网页中的脚本，注释及样式信息；将清洗后的主体内容构建成文档对象DOM树，标记出每个元素的视觉属性，属性包括垂直偏移，水平偏移，长和高信息，构建成基于视觉属性分析的文档对象WVP_DOM树；

(2)利用现有方法在WVP_DOM树中识别噪音信息并标记；

(3)遍历WVP_DOM树，具有相同的标签名称的相似结点为兄弟结点；

(4)如果结点是噪音结点且无兄弟结点，回溯到父结点，继续查找父结点的相似结点；

(5)如果结点是噪音结点且兄弟结点具有相似结构，则将结点删除，不会造成网页变形；

(6)如果结点是噪音结点并且兄弟结点结构不相似并且所有兄弟结点均为噪音信息结点，则回溯到父结点，继续查找父结点的相似结点；

(7)当步骤(4)(5)(6)均不满足时，若该结点标签为<td>、<tr>标签，则认为具有相似结构，删除结点；否则该结点无相似结点，不删除该结点。

本发明的有益效果在于：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。