[发明专利]一种基于标点连续性的通用网页正文提取方法及其系统有效
申请号: | 201110446701.4 | 申请日: | 2011-12-27 |
公开(公告)号: | CN102591612A | 公开(公告)日: | 2012-07-18 |
发明(设计)人: | 胡海斌;赵庸;张雪峰 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F7/20 | 分类号: | G06F7/20;G06F17/22 |
代理公司: | 厦门市首创君合专利事务所有限公司 35204 | 代理人: | 连耀忠 |
地址: | 361000 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于标点连续性的通用网页正文提取方法及其系统,包括读入文件,转化为Unicode的处理步骤;去除噪声标记信息的处理步骤;生成html标记树的处理步骤;处理正文格式信息的处理步骤;提取文本节点生成文本句子序列的处理步骤;利用常用的标点对文本序列块重新分句的处理步骤和利用标点的连续性原理提取最长连续正文的处理步骤。这种利用标点的连续性来获取网页正文的方式,具有处理速度快、适应性强和通用性强的特点。 | ||
搜索关键词: | 一种 基于 标点 连续性 通用 网页 正文 提取 方法 及其 系统 | ||
【主权项】:
一种基于标点连续性的通用网页正文提取方法,其特征在于:包括如下步骤:读入文件,并把读入的文件转化为Unicode的字符流形式的html源代码;对html源代码进行预处理,用预置的噪声标记来去除html源代码中存在的一些对于网页正文提取无帮助作用的字符串;生成html标记树,通过预置的解析工具把html源代码表示成标记树的形式;对标记树中的正文格式信息进行处理,用预置的特定字符去替换对应的格式信息;提取文本文字的节点并采用过滤算法生成html标记树中的文字节点序列;定义一个文章的常用标点集合P={。,:;“”…},以集合P中的节点对上一步骤中的文字节点序列进行重新的文字划分,对于文字节点中的字符如果是集合P中的标点,则在标点后加分隔符或空格符作为分离的标志;利用标点的延续性,抽取标点连续性最高的文字块,返回为正文。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110446701.4/,转载请声明来源钻瓜专利网。