[发明专利]基于深度学习的网页正文抽取方法有效

申请号：	202110026891.8	申请日：	2021-01-09
公开（公告）号：	CN112667940B	公开（公告）日：	2022-02-18
发明（设计）人：	陈前华	申请（专利权）人：	广东电子工业研究院有限公司
主分类号：	G06F16/957	分类号：	G06F16/957;G06N3/04;G06N3/08
代理公司：	北京喆翙知识产权代理有限公司 11616	代理人：	叶似锦
地址：	523808 广东省东莞***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度学习网页正文抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了基于深度学习的网页正文抽取方法，包括如下步骤：1)根DOM节点到叶子DOM节点的数据集准备；2)根DOM节点到叶子DOM节点的数据集构建；3)对根DOM节点到叶子DOM节点的数据集中的数据进行标注；4)利用Fasttext对路径的标签进行预训练和编码；5)训练标签路径文本的LSTM分类模型；6)LSTM模型对标签路径文本进行预测；7)还原抽取到的网页正文。本发明属于互联网技术领域，具体是指提高简历网页正文抽取正确率的基于深度学习的网页正文抽取方法。

技术领域

本发明属于互联网技术领域，具体是指基于深度学习的网页正文抽取方法。

背景技术

互联网上有大量的公开信息，要获取这些信息，需要采用一系列的爬取与自然语言处理技术，进行网页获取和分析处理，其中，网页正文提取是一个重要研究课题。随着万维网的发展，网页的功能、样式结构变得越来越复杂，网页内常常包含大量无用信息：广告、外部链接、导航栏等等，一般来说，我们关心的只有网页的正文内容，所谓正文，是网页中我们关心的内容信息，包括目标文字、图片、视频。

研究的正文提取的方法很多，在特定网页范围提供了可观的准确率，现有的一种基于不同密度分布的正文提取方法，文章假设正文内容会集中出现，而构成HTML的除了标签就是文字，所以认为一个网页标签最少的地方就是正文。基于这个假设，文章作出一个标签分布图，这种方法的目标是那种正文较为集中的网页，如新闻网页等等，而且这种提取方式是较为粗糙的，一些分散的正文信息可能就会被这种方法遗漏。

由于HTML标签通常具有某种象征意义，除了显示的语法，还体现了模块在网页中的功能：如p、img、table等等，HTML的DOM(Document Object Model文本对象模型)树也能体现网页的视觉布局结构和逻辑结构。因此，应用DOM树进行正文提取的相关论文有很多，将HTML解析为Dom 树，并用两个过滤步骤得到正文：过滤标签、过滤广告等内容，这种过滤方式是基于HTML标签的功能定义的：如用href、src等关键词比例过滤含有链接的内容，并认为这些内容很可能是广告，这种方式固然对大部分网站能够起到算法提出者想要达到的效果，但是随着大量非良构网站的出现，以及网站编排的复杂(比如某些正文内容也可能出现大量链接)，基于规则的方法会出现需要人为不断更新的问题。事实上，2003年之后，有不少学者提出很多基于规则的网页分析方法，规则的复杂度是在随着网页设计的发展继续不断扩增的；例如一种基于DOM树和标签路径结合聚类的记录提取方法，利用了重复的内容块有大量相同的分割元素的特点。这是一个具有较高稳定性的无监督学习方法，用于提取展示大量重复记录的网页正文内容，如购物网站的商品、学者的论文列表。

除此以外，也有许多模拟人类在看一个网页的时候使用的基于视觉分块的方法。微软提出了一种以视觉为基础的网站分块算法VIPS，这个算法基于一个使用了13条规则定义的层级分块方式，对网页进行了网站语法角度的有效分块。严格来说，这篇文章没有进行网页的正文提取，另外，这篇文章也利用了 HTML的DOM结构进行分析；还有基于VIPS提出的一个数据记录提取的方法，在用VIPS进行内容结构树的提取，基于两个假设：数据区域总是在水平中心和数据区域总是占了整个网页很大面积，从文章结构中提取了数据记录的位置。

近年，还诞生了许多基于机器学习、数据挖掘方法的正文抽取方法。有基于聚类的，也有基于决策树的。使用的特征被归为以下几个大类：描述独立文本块(元素)的、描述整个HTML文件(一列的文本块以及结构信息)的、描述在整个网页中的视觉信息的、以及描述网站中几个有相同特征的文本簇的 (如上面提到的重复记录)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东电子工业研究院有限公司，未经广东电子工业研究院有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110026891.8/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度学习的网页正文抽取方法有效

专利文献下载