[发明专利]一种基于标点连续性的通用网页正文提取方法及其系统有效

专利信息
申请号: 201110446701.4 申请日: 2011-12-27
公开(公告)号: CN102591612A 公开(公告)日: 2012-07-18
发明(设计)人: 胡海斌;赵庸;张雪峰 申请(专利权)人: 厦门市美亚柏科信息股份有限公司
主分类号: G06F7/20 分类号: G06F7/20;G06F17/22
代理公司: 厦门市首创君合专利事务所有限公司 35204 代理人: 连耀忠
地址: 361000 福建省厦门*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于标点连续性的通用网页正文提取方法及其系统,包括读入文件,转化为Unicode的处理步骤;去除噪声标记信息的处理步骤;生成html标记树的处理步骤;处理正文格式信息的处理步骤;提取文本节点生成文本句子序列的处理步骤;利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。这种利用标点的连续性来获取网页正文的方式,具有处理速度快、适应性强和通用性强的特点。
搜索关键词: 一种 基于 标点 连续性 通用 网页 正文 提取 方法 及其 系统
【主权项】:
一种基于标点连续性的通用网页正文提取方法,其特征在于:包括如下步骤:读入文件,并把读入的文件转化为Unicode的字符流形式的html源代码;对html源代码进行预处理,用预置的噪声标记来去除html源代码中存在的一些对于网页正文提取无帮助作用的字符串;生成html标记树,通过预置的解析工具把html源代码表示成标记树的形式;对标记树中的正文格式信息进行处理,用预置的特定字符去替换对应的格式信息;提取文本文字的节点并采用过滤算法生成html标记树中的文字节点序列;定义一个文章的常用标点集合P={。,:;“”…},以集合P中的节点对上一步骤中的文字节点序列进行重新的文字划分,对于文字节点中的字符如果是集合P中的标点,则在标点后加分隔符或空格符作为分离的标志;利用标点的延续性,抽取标点连续性最高的文字块,返回为正文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201110446701.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top