[发明专利]一种基于文字分布特征的网页正文提取方法无效
申请号: | 201210397240.0 | 申请日: | 2012-10-18 |
公开(公告)号: | CN102915361A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 袁武;林子涵;袁文 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文字 分布 特征 网页 正文 提取 方法 | ||
技术领域
本发明涉及一种网页正文提取方法,特别涉及一种基于文字分布特征的网页正文提取方法。
背景技术
当前互联网上的网页可以分为“导航网页”和包含主题信息的“内容网页”,前者主要由指向其它网页的超链接组成,后者通常包含一个或多个主要由非链接文字组成正文部分以及正文周围的噪声文字,噪声文字主要包括正文以外的导航栏、广告、推荐链接、版权声明等文字。从“内容网页”中提取正文对应于从标签树中提取包含所有正文的最小节点。
随着互联网的迅速发展,充分利用其上积累的大量数据进行数据挖掘、信息抽取、网页分类等已经成为研究热点,但是网页内包含的噪声数据会产生不利影响,Gibson等在The volume and evolution of web page templates(In Proceedings of WWW’05,pages 830-839,2005)中的实验表明早在2005年噪声数据已经占整个网页数据的40~50%,且这一比例将继续增长。网页正文提取目的是从网页HTML代码中提取表达网页主题信息的正文文本,可以为基于网页的自然语言处理任务提供有效数据,同时对提高搜索引擎性能、提高移动设备用户体验起到积极作用。
业已提出的网页正文提取方法根据解析HTML代码方法的不同可以分为基于模版(template)的方法、基于网页分块(block)的方法、基于标签树解析的方法和基于标记(token)序列的方法。基于模版的方法利用网页之间包含的相同结构提取正文或识别噪声数据,人工指定模版的方法需要大量的工作,无法应用于大规模的网页信息处理;自动提取模版的方法需要一个网页集合以提取模版,且模版一旦更换,需要重新提取,另外,互联网包括很多大小不一的网站,导致模版数量巨大,管理模版成为需要解决的问题。基于网页分块的方法首先将网页解析为不重叠或嵌套的区块,然后利用每个区块的特征进行正文提取,对于此类算法,将网页合理分块本身即是一个较难解决的问题。基于标记序列的方法首先将网页解析为标记序列,然后利用标记序列的分布特征提取正文,此类方法对网页的依赖较小,通用性较强,但是没有充分利用HTML代码的结构特征。基于标签树的方法利用HTML代码自身的嵌套结构将网页解析为标签树,然后结合树节点的统计特征提取正文。
随着互联网技术特别是HTML标记语言的发展,很多现有方法无法完成正文提取的任务。例如,越来越多的网页采用层叠样式表(cascading style sheets-CSS)设置网页外观,那些需要读取标签特定属性的方法无法适应此种变化;随着HTML标签的灵活运用,仅考虑特定标签的方法(例如Lin等在S.Lin and J.Ho.Discovering informative content blocks from web documents.In Proceedings of SIGKDD’02,pages 588–593,2002.中仅考虑table标签,Chen等在L.Chen,S.Ye,and X.Li.Template detection for large scale search engines.In Proceedings of SAC’06,pages 1094–1098,2006.中仅考虑table、p、ul标签)存在局限性。此外,不同地区,不同语言的网页存在差异,现有大部分方法没有在跨语言测试集上进行测试。
发明内容
本发明的目的是提供一种自动化和高性能的网页正文提取方法。
本发明的基本思想是:利用HTML代码自身的嵌套结构将网页解析为标签树,树中的每个节点对应网页中的一对标签,节点的层次结构由标签对的嵌套结构决定。例如,图1是某网页的简化的HTML代码,图2为图1中的代码对应的标签树。标签树中的内部节点,对应于HTML代码中具有开始标签和对应的结束标签的标签对,称为容器节点;标签树中的叶子节点,对应于HTML代码中位于标签之间的一段文字,称为文本节点。文字以文本块的形式分布在网页中,由于一个文本块对应于HTML代码中的一对标签,则一个文本块对应标签树中的一个容器节点,正文文本块中的文字多为连续成段出现的非链接文字,而噪声文本块中的文字分布为连续排列的链接文字或以非链接文字与链接文字交替的形式出现。基于以上事实,首先将HTML代码解析为标签树,文本块的并列与嵌套关系对应于标签树节点的横向兄弟节点关系与纵向父子节点关系;对于树中的每个节点,基于该节点的子节点中文字的分布与该节点同其兄弟节点的文字分布的相互关系,为每个节点计算权值;提取“自身权值”最大的节点内的文字作为网页正文。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210397240.0/2.html,转载请声明来源钻瓜专利网。