[发明专利]基于马尔可夫随机场的网页正文提取方法有效
申请号: | 201310210384.5 | 申请日: | 2013-05-30 |
公开(公告)号: | CN103309961A | 公开(公告)日: | 2013-09-18 |
发明(设计)人: | 柳立宁 | 申请(专利权)人: | 北京智海创讯信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京爱普纳杰专利代理事务所(特殊普通合伙) 11419 | 代理人: | 王玉松;孟丽娟 |
地址: | 100095 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 马尔可夫 随机 网页 正文 提取 方法 | ||
技术领域
本发明关于一种网页正文的提取方法,特别是涉及一种基于马尔可夫随机场的网页正文提取方法
背景技术
网络的飞速发展带来了海量的网络信息,如何抽取所需要的网络信息越来越被人们所关注。目前,网页上提供的数据基本上由非结构化的静态的超文本链接标示语言(HTML,Hypertext Markup Language)代码构成,其不能被信息分析系统直接使用,往往需要进行信息提取才能进行后续处理。网络信息抽取就是指从网页这样的半结构化文档中抽取出结构化信息。这些网页往往由服务器端的应用程序自动生成。网络信息抽取而生成的结构化信息为网络挖掘、网络检索等重要网络应用提供了最基础的分析数据,因此网络信息提取方法的研究具有非常重要的现实意义。
网络信息抽取的对象可以分为两大类:一类是抽取网页中的特定知识,即特定领域、特定网站或特定格式的信息,如商品信息等;另一类是抽取网页中的内容,即主题内容或兴趣区域等,本发明之网页正文抽取属于后一类。
互联网上的很多网页主要由以下几类信息组成:导航信息、网页标题、网页正文、广告信息、版权信息和相关链接等。其中,网页要表达的信息主要集中在网页标题和网页正文中,尤其是网页正文中。因此,信息检索、自动分类、话题跟踪、机器翻译和文本摘要等重要的网络信息处理应用主要关注网页中的标题和正文,尤其是正文。然而,导航信息、广告信息、版权信息和相关链接等噪音信息在很大程度上干扰了网页信息的利用效果。例如,这些噪音信息会影响信息检索的效率、导致信息检索准确率的下降等。因此,如何快速准确地从网页中抽取出正文,提高网页的信息质量,已经成为信息检索等重要网络信息处理系统的必不可少的基础工作。
现有网页正文的提取方法一般有以下几类:
1、基于包装器的网页正文提取方法:包装器是一段程序,它根据一定的信息模式识别规则,从特定的信息源中抽取相关内容。由于网页结构的复杂性及不规范性,一个包装器的实现一般只能针对一个信息源。而要处理的网页往往来自大量的不同信息源,如果采用这类方法,包装器的生成和维护代价是巨大的,因此,这类方法对于网页的正文抽取是不合适的。
2、基于统计的网页正文提取方法:这种方法从页面的不同角度分析它的统计特征,采用统计学的算法抽取正文,例如根据统计的文字数量、链接数量、标签字符数量等计算出文本密度、链接密度等,并通过这些值来判断哪些为正文文本、哪些为噪音内容。这种方法实现简单,并且不需要编写包装器,但提取的准确率有限,有时会将与正文无关的版权声明等当作正文内容提取出来。
发明内容
为克服上述现有技术存在的不足,本发明之目的在于提供一种基于马尔可夫随机场的网页正文提取方法,其可以应用于信息检索领域的自动文摘和自动分类系统,抽取精度高、抽取速度快、维护代价低,具有适应性强、灵活性高等特点。
为达上述及其它目的,本发明提出一种基于马尔可夫随机场的网页正文提取方法,包括如下步骤:
步骤一,顺序解析HTML文本,对HTML文本进行预处理;
步骤二,对预处理后的HTML文本抽取标签文本窗,获得标签文本窗集合,标签文本窗为标签包围的内容文本及其相关属性;
步骤三,对标签文本窗集合中的标签文本窗依据相邻关系构建马尔可夫随机场模型;
步骤四,以文本长度和标签类型为基本特征,采用最小偏差阈值法初始化马尔可夫场模型;
步骤五,根据标签文本窗的行号及相邻窗的字符间隔,采用ICM方法对构建的马尔科夫随机场模型进行优化;以及
步骤六,根据优化后的马尔科夫随机场模型重构正文,得到抽取的正文。
进一步地,在步骤三之前还包括确定网页的Foot部分的起始边界,去除位于Foot部分的标签文本窗对正文提取的干扰的步骤。
进一步地,步骤一中,预处理步骤以正则表达式中的回车符或换行符为标记分隔符,将HTML文本按行依次读入存储单元,当前行不包含行分隔标记,并依据噪声标签列表去除当前行的噪声标签字符,记录当前行序号及行末偏移位置,搜索定位标签“<head>”、标签“<body>”,确定标签Head和标签Body的起始偏移位置。
进一步地,相关属性包括文本Text、标签Tag、文本起始偏移位置pos、所在行序号para、标签文本窗集合序号index、标签窗位置标记body以及分类属性label。
进一步地,步骤二还包括如下步骤:
步骤1.1初始化搜索起始位置position=0,标签文本窗集Θ为空集,标签文本窗序号k=0;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智海创讯信息技术有限公司,未经北京智海创讯信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310210384.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:发动机配气机构
- 下一篇:一种把手可曲的多功能手电筒