[发明专利]基于块文字占比的网页正文信息提取方法有效

专利信息
申请号: 201811377444.1 申请日: 2018-11-19
公开(公告)号: CN109543126B 公开(公告)日: 2022-04-29
发明(设计)人: 刘婵;唐军 申请(专利权)人: 四川长虹电器股份有限公司
主分类号: G06F16/957 分类号: G06F16/957
代理公司: 成都虹桥专利事务所(普通合伙) 51124 代理人: 吴中伟
地址: 621000 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 文字 网页 正文 信息 提取 方法
【说明书】:

发明涉及信息提取技术,其公开了一种基于块文字占比的网页正文信息提取方法,解决传统技术中的提取方案容易受到HTML是否良构、网页正文和广告文字占比等的影响以及不能兼顾提取准确性和提取效率的问题。该方法包括以下步骤:步骤1、将网页文件读入字符串中,遍历字符串,对其中的字符进行大小写统一处理;步骤2、删除与主题信息无关的标签内容;步骤3、根据标签配对从字符串中取出head和body两部分;步骤4、在head部分中查找并提取网页正文标题字符串;步骤5、进行网页分块;步骤6、清洗无关的内容块;步骤7、计算每个内容块在全文中的占比,并排序;步骤8、进行标题匹配,确定正文块位置;步骤9、从正文块中提取网页正文。

技术领域

本发明涉及信息提取技术,具体涉及一种基于块文字占比的网页正文信息提取方法。

背景技术

互联网中有大量以HTML形式存储的网页,准确识别与有效提取包含在网页中的正文内容是Web数据挖掘的重要基础工作之一。这些HTML网页中往往包含很多噪音数据,如广告、网站信息、图片、超链接等。用户浏览的网页是经过浏览器处理后的网页,且用户可以通过视觉分块,准确地找到网页正文所在位置。然而,在程序自动处理过程中,网页文档中的噪音数据会严重影响处理效果。因此,研究和探索各种高效、实用的Web网页正文数据提取技术对于Web数据挖掘具有非常重要的意义。

目前有多种网页信息提取技术。文献[1][2]中使用的基于Dom树的网页正文提取技术首先利用开源包处理HTML,更正其中错误或者不规范的地方,根据处理后的较为规范的HTML建立Dom树,然后递归遍历Dom树,在Dom解析树上应用算法来抽取网页正文。这种方法实现简单,准确性较高,但对HTML是否良构要求较高,且树的建立和遍历时空复杂度高。

文献[3]中公开的基于网页聚类的正文信息提取方法中,认为网站内部的网页大多都是由一套相同内容模板生成的。首先基于网页的结构特征对网页进行聚类,然后面向相似网页集合的正文位置特征生成。该方法受到网页结构限制,且聚类算法处理复杂度高,算法参数配置也容易影响提取结果。

文献[4][5]公开的基于视觉的网页正文提取算法中,充分利用网页的框架信息和视觉信息,从用户的观察角度来分析网页的结构,模拟人的眼睛识别语义内容的过程并结合Dom树进行分析。这种方法对于结构较为复杂,正文内容分散的网页可以提高提取的准确性,但算法需要多次迭代,且依赖于浏览器的内核代码,在通用性和可扩展性方面稍有不足。

综上,现有技术中的网页正文信息提取方法,容易受到HTML是否良构、网页正文和广告文字占比等的影响,一些复杂算法在提取准确性提高的同时牺牲了一定的提取效率,及无法兼顾提取准确性和提取效率。

参考文献

[1]周建;汤进;罗斌.基于DOM结构树的网页正文信息分段方法[J].计算机与现代化2013(10):229-232.

[2]常红要,朱征宇,陈烨,等.基于HTML标记用途分析的网页正文提取技术[J].计算机工程与设计,2010,31(24).

[3]基于网页聚类的正文信息提取方法王一洲;陈星;戴远飞小型微型计算机系统2018(1):111-115.

[4]沈怡涛.基于视觉特征和文本结构分析的中文网页自动摘要技术研究[D].华东师范大学,2014.

[5]安增文,徐杰锋.基于视觉特征的网页正文提取方法研究[J].微型机与应用,2010(3):38-41.

发明内容

本发明所要解决的技术问题是:提出一种基于块文字占比的网页正文信息提取方法,解决传统技术中的提取方案容易受到HTML是否良构、网页正文和广告文字占比等的影响以及不能兼顾提取准确性和提取效率的问题。

本发明解决上述技术问题所采用的技术方案是:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811377444.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top