[发明专利]一种提取网页正文内容的方法及系统有效

申请号：	201510381617.7	申请日：	2015-07-01
公开（公告）号：	CN105022803B	公开（公告）日：	2018-05-15
发明（设计）人：	吴远辉	申请（专利权）人：	广州市万隆证券咨询顾问有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	胡辉;郑泽萍
地址：	510088 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种提取网页正文内容的方法及系统，该方法包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取。本发明通过对HTML源码逐行比较相同性，从而确定网页的噪音信息行和正文信息行，最后抽取获得网页正文内容，实现方式简单、快速，而且可以取得较高的准确率和完整性，能有效地抽取网页正文信息，可广泛应用于网页正文内容抽取领域中。
搜索关键词：	一种提取网页正文内容方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种提取网页正文内容的方法，其特征在于，包括：S1、加载待分析网页的HTML源码，同时加载预设对比网页的HTML源码；S2、按行比较待分析网页和预设对比网页的HTML源码的相同性；S3、根据相同性对比结果，判断待分析网页是否为列表导航网页类型，若是，则结束，反之，执行步骤S4；S4、对待分析网页的HTML源码进行正文内容抽取；所述步骤S2，包括S21～S23：S21、分别去除待分析网页和预设对比网页的HTML源码中与正文无关的信息；S22、依次对比待分析网页和预设对比网页的HTML源码的每一行，并标记每行的对比结果属性为相同或不同；S23、根据每行的对比结果属性，对待分析网页的HTML源码进行遍历，形成包含对比结果属性的数组；所述步骤S4，包括：S41、根据相同性对比结果，依序分别将待分析网页的HTML源码中的连续不同行生成文本信息块，获得文本信息块数组；S42、分别对每个文本信息块进行分析并抽取内容信息块；S43、依序合并内容信息块，并添加段落标记，形成正文内容。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州市万隆证券咨询顾问有限公司，未经广州市万隆证券咨询顾问有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510381617.7/，转载请声明来源钻瓜专利网。

上一篇：一种LED防水灯
下一篇：一种增强免疫力的中药片剂及其制备方法与应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种提取网页正文内容的方法及系统有效

专利文献下载