[发明专利]基于聚集文本密度的网页正文提取方法及装置有效
申请号: | 201610050995.1 | 申请日: | 2016-01-26 |
公开(公告)号: | CN105740355B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 刘忠;陈发君;黄金才;朱承;修保新;程光权;陈超;冯旸赫 | 申请(专利权)人: | 中国人民解放军国防科学技术大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/31 |
代理公司: | 北京中济纬天专利代理有限公司 11429 | 代理人: | 陈立新 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 聚集 文本 密度 网页 正文 提取 方法 装置 | ||
本发明提供一种基于聚集文本密度的网页正文提取方法及装置,该方法根据标签分隔网页HTML的方法,对网页文本内容进行分割,从而有效将其中的各类文本分开。无需定制特殊的网站提取规则,通用性强;无需使用复杂的文本挖掘手段,该方法简单高效,对各类网页正文提取准确高效。
技术领域
本发明涉及网页爬虫技术领域,具体的涉及一种基于聚集文本密度的网页正文提取方法及装置。
背景技术
随着社会信息化的飞速发展,互联网已经成为人们获取信息的一个重要来源。网民通常使用浏览器直接查看网页内容,此外,还有许多基于互联网的信息处理工作(如信息检索、数据挖掘、机器翻译等)也是以网页的信息内容为基础数据来进行的,最主要是基于网页的正文来处理。但是大多数网页中除了包含有用的信息(例如正文内容)外还包含许多噪声信息,例如网站的导航信息、相关链接和广告、版权信息以及一些脚本语言等。如何准确、高效地提取网页的正文信息,做到既不遗漏正文也不混入噪音,已经成为当前网络信息抽取及应用的一个重要课题,具有很高的应用价值和实践意义。
针对该问题现有技术中存在多种提取方法:
1)基于DOM树结构的正文提取方法
首先修复网页的HTML文件中的不规范结构或信息(如:开始标签<h1>没有结束标签</a>等),使之成为标准的HTML文件。然后将HTML文件解析为DOM(Document ObjectModel,文件对象模型)树。最后遍历DOM树识别并剔除非正文信息,并依据页面布局、文本密度等规则提取正文文本。目前很多网站的页面结构越来越复杂、也越来越不规范,会导致无法构建出DOM数从而提取正文提取模板构建失败。之后的构建和遍历DOM树过程,时空复杂度高、效率低、速度慢。噪音识别中需要人工维护更新信息(如广告服务器列表等),不能做到自动化。
2)基于规则提取正文
通过人工手段为特定的网站指定提取规则,例如正则表达式或XPath等。优点是准确程度高,但缺点是不具备通用性、无法扩展,只能解析固定网站或固定格式的网页,并且规则的制定过程费时费力,一旦网页布局发生变化,难以及时发现进行更新维护。3)基于网页分割提取正文块
利用HTML标签中的分隔线以及一些视觉信息(如文字颜色、字体大小、文字信息等)分隔出网页中的正文块。由于不同网站的HTML风格迥异,分割没有统一方法,通用性难以保证;需要增加很多辅助的人工规则。4)基于数据挖掘和机器学习方法提取正文
该方法包括以下步骤:线性化重构网页代码使正文段落的逻辑顺序不因标签的嵌套规则破坏;过滤HTML噪声标签;将文本段落以<table>标签为单位解析并存储;使用文本聚类算法对段落聚类并最终生成正文。存在问题:简单问题复杂化,使得提取正文变得繁琐复杂,不利于广泛运用。
发明内容
本发明的目的在于针对上述背景技术中提到的现有技术存在的技术问题,提供一种基于聚集文本密度的网页正文提取方法及装置。
本发明提供一种基于聚集文本密度的网页正文提取方法,包括以下步骤:步骤S100:获取网页的HTML源文件文本,删除无价值的第一标签并剔除文本中的特殊字符,得到样本文本;步骤S200:将样本文本中所有第二标签替换为空行,生成多个空行文本,将空行文本转换为队列T,两两相邻的空行本文由空行符分隔;步骤S300:将队列T分隔成多个子队列,将每个子队列中的所有文本合并为一个文本块,将多个文本块组成队列B,根据文本阈值和索引阈值对队列T进行分割;步骤S400:从队列B中选取文本长度最大的文本作为网页正文;索引阈值为预设的任意两子队列间的空行数,文本阈值为预设的子队列中所含文本字符数。
进一步地,步骤S200中第二标签使用正则表达式进行替换,替换规则为:R[(i,n)],其中i为第二标签,n为该标签替换为空行的数量。
进一步地,步骤S300中包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科学技术大学,未经中国人民解放军国防科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610050995.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于分布式内存的三维平台数据模糊查询方法
- 下一篇:一种数据处理方法和装置