[发明专利]新闻网页的正文抽取方法和系统有效

申请号：	201610150748.9	申请日：	2016-03-16
公开（公告）号：	CN107203527B	公开（公告）日：	2019-06-28
发明（设计）人：	曹六一;张丹;杨建武	申请（专利权）人：	北大方正集团有限公司;北京大学;北京北大方正电子有限公司
主分类号：	G06F16/953	分类号：	G06F16/953
代理公司：	北京路浩知识产权代理有限公司 11002	代理人：	李相雨
地址：	100871 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	新闻网页正文抽取方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种新闻网页的正文抽取方法和系统，该方法包括：根据新闻网页中的各个标签，将新闻网页生成一节点树；对节点树进行遍历，并生成由所有文本和所有链接按照遍历顺序组成的第一列表及由所有链接按照遍历顺序组成的第二列表；将第二列表中的各个链接在第一列表中进行一一映射，并生成表征映射结果的第三列表；根据第三列表，确定新闻网页中的最长连续文本序列；将最长连续文本序列作为新闻网页的正文进行抽取。本发明在抽取过程中无需人工配置的模板，因此适用于海量新闻网页的采集。而且，由于本发明提供的正文抽取方法是一种基于文本分布的正文抽取方法，相对于现有技术中单纯基于网页结构的抽取方法，准确率是更高的。

技术领域

本发明涉及数据处理技术领域，尤其是涉及一种新闻网页的正文抽取方法和系统。

背景技术

网页的正文抽取是海量数据采集过程中必不可少的基础技术，其主要作用是从爬虫采集回来的Web网页中抽取出其中的正文主体，从而将凌乱的原始HTML数据转化为可用的、格式化的纯文本数据。

在海量的Web网页中，新闻类网页数量占比较大且其数据价值较高，是数据采集中必不可少的部分。而且，新闻网页相比其它网页有明显的特征，即其网页结构比较规整，新闻内容就是整个网页的主体部分。

目前，新闻网页的正文抽取方法分为两类，一类是基于模板的正文抽取方法，另一类基于网页结构的自动抽取方法。其中，基于模板的正文抽取方法能够准确抽取网页文本，但其缺点是需要人工配置模板且不同网页样式需要配置不同模板，因此在海量新闻网页采集中并不适用。而基于网页结构的自动抽取方法，无需网页模板，适用范围广，适合于海量新闻网页的采集，但其缺点是准确率较低。

发明内容

针对以上缺陷，本发明提供一种新闻网页的正文抽取方法和系统，不仅适用于海量新闻网页的采集，而且其抽取准确率得到提高。

第一方面，本发明提供的新闻网页的正文抽取方法包括：一种新闻网页的正文抽取方法，其特征在于，包括：

根据所述新闻网页中的各个标签，将所述新闻网页生成一节点树；

对所述节点树进行遍历，并生成由所有文本和所有链接按照遍历顺序组成的第一列表及由所有链接按照遍历顺序组成的第二列表；

将所述第二列表中的各个链接在所述第一列表中进行一一映射，并生成表征映射结果的第三列表；

根据所述第三列表，确定所述新闻网页中的最长连续文本序列；

将所述最长连续文本序列作为所述新闻网页的正文进行抽取。

可选的，在将所述新闻网页生成一节点树之前，还包括：

对所述新闻网页进行预处理，得到统一编码的网页。

可选的，所述对所述新闻网页进行预处理，得到统一编码的新闻网页，包括：

判断所述新闻网页中是否存在网页属性标签，