[发明专利]一种基于标点连续性的通用网页正文提取方法及其系统有效
申请号: | 201110446701.4 | 申请日: | 2011-12-27 |
公开(公告)号: | CN102591612A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 胡海斌;赵庸;张雪峰 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F7/20 | 分类号: | G06F7/20;G06F17/22 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 连耀忠 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 标点 连续性 通用 网页 正文 提取 方法 及其 系统 | ||
技术领域
本发明涉及计算机技术领域,特别是涉及一种基于标点连续性的通用网页正文提取方法及其系统。
背景技术
随着互联网的飞速发展,越来越多的企业和个人把信息公布于网上。每天,互联网上都有成千上万的网页产生,人们可以跨越时间和空间界限来共享大量信息,互联网已经成为了世界上一个最大的信息源。在这个浩如烟海的信息海洋中,如何帮助人们快速的提取有效的信息成为一个重要的课题。
网页作为互联网上最为广泛的信息载体,包含了绝大部分的互联网信息,成为了搜索引擎和普通用户获取信息的最常用手段。但是,以网页为获取信息的单元是不足够的,因为网页往往包含了多种主题的信息,如包含导航块、广告块、版权声明块,信息块等等。对于信息的获取者而言,信息块往往是其唯一关心的对象。其余的信息成为了噪声。
对于如何去除网页噪声,自动提取信息块已有不少研究:
1.基于文档对象模型(DOM,Document Object Model)的信息提取
HTML是一种规范,一种标准,它通过标记符号来标记要显示的网页中的各个部分。通过提取HTML文档中的标记可以生成一颗DOM树,再对树中的特定节点(Table、Div,P)等进行处理来得到网页有用信息,如:《基于统计的网页正文信息抽取方法的研究》中认为网页的正文信息(有用信息)一般存在于一个Table节点中,通过统计节点中中文文字的信息得到特定的Table节点,提取其中的文字得到网页的有用正文。此类研究还有《基于标记窗的网页正文信息提取方法》等。基于DOM的网页正文提取方法存在几个问题:不少的网页不是结构良好的,形成的DOM树可能不规范;HTML作为标记语言关注于如何显示网页,一般不关心网页的分块和语义信息;不同网站的网页排版往往不同(正文的信息不一定都包含在一个Table节点中)。
2.基于视觉的信息提取
从人类的角度来看,当一个用户观察Web页面的时候,它总是会自然而然的把一个语义块作为一个单一对象来看待,而不会管Web页面的内部结构是如何描述的。通常情况下,在分辨语义块的时候,用户会使用一些视觉因素来进行帮助,比如背景颜色、字体颜色和大小、边框、逻辑块和逻辑块之间的间距等等。因此如果充分的使用Web页面的视觉提示,并结合DOM树进行页面语义分块,则可以弥补仅使用DOM树所带来的一些缺憾。这类方法的代表是《VIPS:基于视觉的页面分割算法》,基于视觉的正文提取方法需要获取页面的视觉因素,这是一个计算量比较大的过程,而且如果页面的视觉因素通过不同的文件进行控制(如:通过CSS层叠样式表文件进行控制),导致了获取网页还需要获取其相关的控制文件,需要多次请求,效率比较低下。而且对于网页风格不是十分良好的情况,基于视觉的正文提取精确度也会比较低下。
3.基于规则制定和机器学习的方法
这种方法是基于机器学习的,通常使用数据挖掘中的分类技术:通过设定一系列的与网页正文相关的属性,对大量(越多越好)的网页训练集进行训练得到能够判断一个网页的某个区块是不是正文区块的一个分类器,再用训练后的分类器指导获取网页的正文。这类方法在训练过程中需要对于训练集中的网页正文块进行标识,这是一个工作量很大的过程。而且不同的网站规则往往不尽相同,能得到一个通用的规则难度很大,同样也因为如此,导致了网页正文提取的精确度比较低。
上述三种提取方法中:基于DOM的统计信息的方法针对于网站风格良好,排版较一致的网页,而由于开发者的不同,HTML网页标签应用的复杂多样化,网站的排版布局往往也是千变万化,已有研究的实验网页大多基于正规的门户网站,方法的通用性比较差。基于视觉信息的方法需要的计算量大,视觉启发规则对于不同网站也不一定通用(比如对于标题的启发规则:块A文字的字体是否比块B的大,块A、块B的字体颜色是否不同,对于不同网站就不可能完全通用),基于视觉信息的方法对于CSS控制的页面排版的网页会有很大的限制,而现在越来越多的网页版面控制采用CSS,所以该方法的实际应用较少,通用性不强。基于机器学习的方法的难点主要有两个:第一个是网页训练集的数据量大小直接和分类器的提取准确率相关,需要人工标注网页正文的区域,工作量繁重。第二个难点是:是否存在一个可以判断网页正文区间并且具有较高准确率的通用的规则集,现在还没有研究证明。
发明内容
本发明的目的在于克服现有技术之不足,提供一种基于标点连续性的通用网页正文提取方法及其系统,是利用标点的连续性来获取网页正文,具有处理速度快、适应性强和通用性强的特点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110446701.4/2.html,转载请声明来源钻瓜专利网。