[发明专利]网页正文的识别方法、装置、电子设备及存储介质在审

申请号：	202110823007.3	申请日：	2021-07-20
公开（公告）号：	CN113537091A	公开（公告）日：	2021-10-22
发明（设计）人：	余良	申请（专利权）人：	东莞市盟大塑化科技有限公司
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/34
代理公司：	广州三环专利商标代理有限公司 44202	代理人：	张艳美;刘光明
地址：	523000 广东省东莞市南城区周溪隆溪路***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	网页正文识别方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种网页正文的识别方法、装置、电子设备及存储介质，其中方法包括：获取待分析网页文本，待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，间隔对应的空白行数量表示该间隔的长度；根据待分析网页文本的所有间隔计算得到一参考间隔长度；利用参考间隔长度过滤待分析网页文本的所有间隔，以保留长度大于参考间隔长度的间隔；穷举搜索任意两行之间对应的字符数和过滤后的所有间隔，并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。本申请具有较高识别准确率，还能适用于多种类型的网页。

技术领域

本申请涉及网页设计技术领域，尤其涉及网页正文的识别方法、装置、电子设备及存储介质。

背景技术

对于一个网页，核心内容通常是网页的正文。现在大多数网页不仅包含正文，还包括标签、广告、网页链接、插件等内容，然而要快速获取网页的核心内容则需要将网页正文之外的内容剔除，同时提取到的正文内容的质量则直接影响浏览者可获取的信息。

目前，网页正文的识别方法主要采取解析网页HTML(HyperText MarkupLanguage，超文本标记语言)源码的方法。通过网页HTML源码，并基于一定的设定规则提取网页正文，例如字符数最多，区域分界。但是每个网页的设计均不都一样，导致该方法错误率较高、不能自适应多种类型网页。

发明内容

本申请的目的是为解决上述技术问题的不足而提供一种网页正文的识别方法、装置、电子设备及存储介质，不仅具有较高识别准确率，还能适用于多种类型的网页。

为了实现上述目的，本申请公开了一种网页正文的识别方法，其包括：

获取待分析网页文本，所述待分析网页文本包括字符行和空白行，单个空白行和多个连续排列的空白行视作间隔，所述间隔对应的空白行数量表示该所述间隔的长度；

根据所述待分析网页文本的所有间隔计算得到一参考间隔长度；

利用所述参考间隔长度过滤所述待分析网页文本的所有间隔，以保留长度大于所述参考间隔长度的所述间隔；

穷举搜索任意两行之间对应的字符数和过滤后的所有间隔，并根据各搜索区域对应的字符数和过滤后的所有间隔确定网页正文。